第一篇 自动机器学习方法 第1章 超 参 优 化 马蒂亚斯·费勒a,弗兰克·亨特a 概述:近年来,很多复杂且计算资源要求高的机器学习模型吸引了业界和学术界的大量关注,如 自动机器学习框架和深度神经网络。而这些模型所含有的大量超参,促使了超参优化(HPO)这 一研究领域的再次兴起。本章将对目前主流的超参优化相关算法进行介绍。具体而言,本章首先 讨论基于免模型方法和贝叶斯优化的黑箱函数优化方法。然而,很多现有的机器学习应用需要大 量的计算资源,导致纯粹的黑箱优化方法运算代价极其巨大。为了解决此不足,本章接下来重点 介绍能够采用更少黑箱函数变量的多保真度优化方法,该方法能够近似评估出超参设定的质量和 效果。最后,本章探讨超参优化相关的开放性研究问题和未来的研究方向。 1.1 引 言 事实上,每一个机器学习系统都会有超参,这在很大程度上导致自动设置超参以优 化算法性能成为自动机器学习领域最为基础和重要的任务。尤其是近期被广泛使用的深 度神经网络,其性能极其依赖于超参的选择,如网络结构、正则化参数及优化的方法等。 自动超参优化(hyperparameter optimization,HPO)在实际任务中有一些非常重要的应 用和价值,例如: .HPO能够降低运用机器学习所必需的人为工作量,这在自动机器学习中尤为 重要。 .HPO能够通过将机器学习算法调整成适配于手中问题的方法以提高算法的性能。 目前,部分研究(如参考文献[105,140])表明,在一些重要的机器学习基准上, 通过这种方式已经取得了新的性能纪录。 a 马蒂亚斯·费勒(),弗兰克·亨特 德国弗莱堡大学计算机科学系 电子邮箱:feurerm@informatik.uni-freiburg.de。 3 . 第1章 超 参 优 化 .HPO能够提高科学研究的复现性和公平性。显而易见,HPO比人为搜索的复现 可能性要高。与此同时,HPO能够提高科学研究的公平性。因为想要公平地比 较在同一个问题上不同方法的优劣,公平的比较方式应该是这些参与比较的方 法获得同等程度的调优[14,133]。 HPO问题的研究最早可以追溯到20世纪90年代(如参考文献[77,82,107,126]),早期关于HPO的研究更多的是为不同的数据集设置比较好的超参配置。而通 过HPO将通用的流程适配到特定的应用领域上反而是一个比较新的视角[30]。现如今, 大众也普遍认为经过调优的超参性能能够超越普通机器学习库所提供的默认设置的性 能[100,116,130,149]。 机器学习在工业界的应用范围越来越广,使得HPO所蕴含的商业价值也越来越大, 在工业界中所起到的作用也越来越重要。举例而言,HPO不仅可以作为公司自己内部 的使用工具[45],而且可以作为机器学习云服务的一部分[6,89],再者HPO自身就是一种 服务[137]。 不可否认的是,HPO自身所面临的一些挑战导致HPO的落地过程变得非常困难。 .在较大的模型(如深度学习)、复杂的机器学习管道或者大数据集上,函数求 解的运算代价极其巨大。 .超参的配置空间通常而言较为复杂且维度较高,因为超参种类繁多,如连续型 超参、类别型超参和条件型超参。再者,在实际应用中,很难提前明确需要优 化的超参和不需要优化的超参,以及超参的范围,这些因素都不同程度地加剧 了超参配置空间的复杂度和难度。 .一般而言,无法直接获得超参损失函数的梯度值。另外,在经典优化领域中, 目标函数的一些特性难以直接应用到超参优化,如函数的凸性和平滑性。 .此外,受限于训练数据集的规模,在实际应用中,无法直接优化超参的泛化性能。 对此主题感兴趣的读者可以进一步阅读其他的HPO参考文献,如参考文献[64,94]。 本章结构如下:首先,1.2节将HPO研究形式化,并对其相关的变体进行了讨论; 接下来,1.3节主要介绍求解HPO问题的黑箱优化算法;随后,1.4节重点介绍多保真 度求解算法,该算法通过采用近似性能评价方法而非全模型评价方法显著提升了HPO 的适用范围,能够将HPO直接运用到运算代价巨大的模型上。为了让读者对HPO有一 个更为全面地认识,1.5节给出了一些重要的超参优化系统和在AutoML上典型应用的 概述。最后,1.6节对一些开放性问题进行了讨论。 4 1.2 问 题 定 义 以.表示一个具有N个超参的机器学习算法,第n个超参的定义域表示为.n,所有 的超参配置空间为Λ.......12.N。超参的某一组配置表示为向量λΛ.,被参数λ实 例化的机器学习算法用.λ来表示。 超参的定义域类型较为广泛,主要有:实数变量,如学习率;整型变量,如网络的 层数;二值变量,如是否使用提前停止策略;类型变量,如优化器的选择。在实际任务中, 整数型超参和实数型超参在大多数情况下是有界的,只有少数例外[12,113,136]。 除此之外,超参的配置空间也可以包含条件,即当某个超参或若干超参的组合取特 定值时,另一个超参才有意义。一般而言,条件空间采用有向无环图来表示。在实际应 用中,条件空间经常存在,如在自动调整机器学习管道时,不同预处理过程和机器学习 算法的选择被建模成类别型超参,这类问题也称为全模型选择(FMS)或组合算法选择 与超参优化问题(CASH)[30,34,83,149]。又如,在优化神经网络结构时也存在条件空间。 举例而言,可将网络的层级设置为整型超参,而只有当网络的深度大于等于i时,第i层 相关的超参才会被激活[12,14,33]。 给定数据集.,自动超参优化的目标形如: λ*.argmin,,, ..Λ ..DDtrainvalid,~..VDD...λtrainvalid. (1.1) 其中,VDD...,,,λtrainvalid.主要用来衡量具有超参λ的算法.在训练数据Dtrain和验证数 据Dvalid上的损失。在实际工作中,只需利用有限的数据D~.去近似估计式(1.1)的期 望即可。 关于验证方案V(...,,,),比较普遍的选择是采用留出法或者交叉验证法对用户给定的 损失函数进行误差计算(如误分类比例)。在参考文献[16]中,Bischl等对验证方案的相 关研究进行了梳理和概述。有一些专门用来降低评估时间的策略,如只在交叉数据的子集 上对机器学习算法进行测试[149],或者直接采用数据的子集对算法进行验证[78,102,147], 又或者采用较少的迭代轮数,都能很好地降低算法的评估时间,1.4节会详细介绍这些 节省评估时间的实际策略。近期一些关于多任务优化[147]和多源优化[121]的研究,能够 通过引入成本较低的辅助任务来替代式(1.1)。这些辅助任务所提供的廉价信息将有助 于HPO的优化学习,而不再需要针对目标数据集训练一个单独的机器学习模型,当然 也就不会再生成一个作为副产品的可用模型。 1.2.1 优化替代方案:集成与边缘化 采用本章剩余部分所介绍的技术来求解式(1.1)时,一般需要采用多组超参向量λt 来拟合机器学习算法.。为了取代式(1.1)中的argmin算子,可以直接构建一个能够 最小化给定验证方案损失值的集成函数或者对超参进行积分(当待考虑的模型是概率模 型时)。本书将Guyon等的工作[50]及其中的参考工作作为频域模型筛选方案和贝叶斯 模型筛选方案的参照算法。 在实际学习过程中,每次只选择一个超参配置进行学习非常浪费资源和时间,尤其 是在HPO已经找到很多较好配置时。而将它们集合成一个整体,能够显著提升学习性 能[109]。特别是在AutoML系统的配置空间(如FMS或CASH)异常巨大时,这种集成 的方法尤为有用。因为好的配置可能是非常多样的,而多样化的配置能一定程度上增加 集成的潜在收益[4,19,31,34]。为进一步提升性能, Automatic Frankensteining[155]首先利用 HPO为基于HPO生成的模型的输出训练一个叠加模型[156],随后采用传统的集成策略将 第二阶段所生成的模型进行组合。 到目前为止,所讨论的都是在HPO程序之后的应用集成方法。虽然在实际任务中, 这些方法能够提升模型的性能,但是基模型没有针对集成进行优化。事实上,也可以直 接针对基模型进而优化,能够最大幅度地改进现有集成方法[97]。 最后,在应对贝叶斯模型时,可以直接对机器学习算法的超参进行积分,如采用证 据最大化[98]、贝叶斯模型平均[56]、切片采样[111]或经验贝叶斯[103]等方法。 1.2.2 多目标优化 在实际应用中,经常会出现一种情形,需要对多个目标进行权衡,如算法的性能和 资源消耗[65](第3章也会进行介绍),或面临多个损失函数[57]。解决方案一般有两种。 .方案一。假设次要性能指标的极限(如内存消耗的最大值)已知,多目标的权 衡可以直接转化成约束优化问题。1.3.2节(贝叶斯优化)会具体讨论如何进行 约束处理。 .方案二。更一般地,可以采用多目标优化直接寻找可行解的帕累托前沿,即一 系列能够很好平衡多目标的配置解集合。对于帕累托前沿中的任何一个配置, 不存在另一个配置能够在各个优化目标上都优于该配置的情况。获得可行解的 帕累托前沿之后,可以直接从帕累托前沿中选取一个解作为多目标优化的配置。 对此主题感兴趣的读者,可以深入阅读参考文献[53,57,65,134]。 1.3 黑盒超参优化 一般而言,任何一个黑盒优化方法都可以应用到HPO问题上。考虑到问题的非凸性, 更倾向于选择全局优化算法。不过,优化过程中的部分局部极值点有助于实现用更少的 函数评估取得算法优化。接下来,本节首先介绍免模型的黑盒HPO方法,随后详细介 绍黑盒贝叶斯优化方法。 1.3.1 免模型的黑盒优化方法 网格搜索是最为基础的HPO方法,也称为全因子设计[110]。具体而言,首先用户为 每个超参设定取值的有限集合,随后网格搜索评估这些集合的笛卡儿积。毫无疑问,网 格搜索会面临“维数灾难”困境,因为需要评估的函数次数会随着配置空间维度的增加 而呈指数级增长。网格搜索还面临着另外一个问题,即随着超参离散化程度的提升,所 需的函数评估次数会极大增加。 随机搜索[13]a可以作为网格搜索的一个简单替代。顾名思义,随机搜索以随机的方 式从配置中进行采样直到某个特定的搜索预算耗尽为止。当一些超参的重要性比另外一 些超参高时(很多参数空间都存在这种特性[13,61]),随机搜索的性能会优于网格搜索。 举例而言,给定函数评估次数为B,超参个数为N,采用网格搜索时,分配到每个超参 能够尝试到的不同取值个数只有NB。如果采用随机搜索,每个超参能够尝试到的不同 取值个数为B,远多于网格搜索。为了让读者更好理解网络搜索和随机搜索的差异,图1.1 给出了一个直观例子。 相较于网格搜索,随机搜索更进一步的优势还包括易实现的并行化和灵活的资源配 置。具体而言,由于生产者(workers)在运行过程中无须与其他生产者进行信息沟通且 表现差的生产者也不会对设计留下隐患,使得随机搜索可以进行并行化运算;另外,在 随机搜索中,用户可以为一个随机搜索设计添加任意数量的随机点,仍会产生一个随机 a 在某些学科中,这也被称为纯粹随机搜索[158]。 搜索设计,使得随机搜索的资源配置较为灵活,但这种方法难以适用到网格搜索中。 图1.1 网格搜索和随机搜索的对比示例 注:优化的目标是最小化含有一个重要参数和一个非重要参数的函数。该图来源于参考文献[13]的图1。 随机搜索是一个非常有用的基准模型,因为随机搜索没有对正在优化的机器学习算 法做任何假设,且在给定足够资源的前提下,随机搜索的结果预期能够足够接近最优值。 当将随机搜索和其他更为复杂的优化策略结合在一起时,一方面能够保证获得一个最小 的收敛率,另一方面还增加了能够改进基于模型搜索的探索[3,59]。除此之外,随机搜索 也是一个非常好的可用于搜索过程初始化的方法,因为随机搜索探索的是整个配置空间, 且经常能找到性能合理的超参配置。然而,随机搜索也存在着一些不足,尤其是相较于 指导性搜索方法,随机搜索找到一组性能满意的超参配置通常需要花费更多的时间。举 例而言,当从一个具有N个布尔型超参(好与坏两种取值,且超参彼此之间没有影响) 的配置空间中进行不放回抽样时,为了找到最优值,随机搜索的函数评估的期望次数为 2N.1次。然而,如果采用如下方法,指导性搜索找到最优值总共只需要N.1次函数评估 即可:首先,任选一个配置开始运行。其次,基于超参进行循环,每次循环只改变一个 超参,如果性能得到提升,则保留配置结果;如果性能没有得到提升,则撤回本次改变, 最终总共只需要N.1次函数评估便可找到最优配置。一般而言,在接下来的章节中所 讨论的指导性搜索方法的效果都会优于随机搜索方法[12,14,33,90,153]。 基于种群的方法(如遗传算法、进化算法和粒子群优化算法等)可以维护一个种群 (即一系列配置的集合),并通过应用变异(即局部扰动)和交叉(个体不同部分进行 重组)等手段获得质量更高的新一代种群(也就是更好的超参配置)。这些方法概念上 较为简单,并且能够处理不同类型的数据。除此之外,基于种群的方法可以并行[91]运算, 因为一个具有N个成员的种群可以并行在N台机器上分别进行评估。 自适应协方差矩阵进化策略(CMA-ES[51])是常用的基于种群的方法之一:该进化 策略从一个多元高斯分布中进行配置采样。其中,多元高斯分布的均值和方差会基于每 一代种群个体的成功程度进行更新。另外,CMA-ES也是极具竞争力的黑盒优化算法之 一,定期主导黑盒优化基准测试(BBOB)挑战赛[11]。 想要了解更多基于种群的优化方法的细节,可以参考文献[28,138]。另外,1.5节 会讨论超参优化上的一些应用,第3章会介绍神经网络架构搜索上的相关应用。第8章 会详细介绍针对AutoML管道优化的遗传规划的相关内容。 1.3.2 贝叶斯优化 贝叶斯优化是一个可为黑盒函数进行全局优化的最为先进的优化框架,尤其是近期在 HPO领域更是获得了大量的关注。因为在众多机器学习任务中(如图像分类[140,141]、语 音识别[22]、神经语言建模[105]等),基于贝叶斯优化所调整的深度神经网络取得了最好 的算法结果。除此之外,贝叶斯优化针对不同的问题设置具有广泛的适用性。想要深入 了解贝叶斯优化的读者,可以仔细阅读文献[135]和文献[18]。 在本小节,首先对贝叶斯优化进行简要介绍,随后给出贝叶斯优化中可用的代理模 型及详细描述条件配置空间和约束配置空间的扩展,最后讨论超参优化的若干重要应用。 在贝叶斯优化的一些最近进展中,已不再将HPO当成黑盒优化问题,如多保真度HPO(1.4节)、基于元学习的贝叶斯优化(第2章)和结合管道结构的贝叶斯优化[159,160]。除 此之外,贝叶斯优化的很多最新进展并不直接针对HPO进行优化,但可以更为容易地 应用到HPO上,如新的采集函数、新的核函数、新的模型及新的并行化机制等。 1.贝叶斯优化简介 贝叶斯优化是一种含有两个关键要素的迭代算法:概率代理模型和采集函数。其中, 采集函数主要用于决定下一个待评估的数据点。在每轮迭代中,代理模型会对当前所生 成的目标函数的所有观测值进行拟合。随后,采集函数会基于概率模型的预测分布来决 定不同候选采样点的效用,同时对探索和利用进行平衡。相较于直接评估运算量较大的 黑盒函数,采集函数能够以更加高效的方式进行运算,因此优化得更为彻底。 尽管现有采集函数较多,但普遍使用的采集函数是期望增量(Expected Improvement, EI)[72]: .....λ...... max,0..fymin.. (1.2) 主要原因在于,如果模型的预测值y在配置λ上满足正态分布,那么便可以用封闭 形式计算EI: ....λλ......fμΦσmin....... ........ .... fμfμminmin.. σσ .λλ.... (1.3) 其中,φ(.)为标准正态密度;Φ(.)为标准正态函数;fmin为当前最好的观测值。 为了让读者对贝叶斯优化有一个直观认识,图1.2给出了贝叶斯优化的一个简单 示例。 图1.2 单维函数上的贝叶斯优化示例 注:目标是通过最大化采集函数(底部的灰色区域)来逼近目标函数(虚线部分)的高斯代理过程(预 测值为实线部分,实线周围的灰色区域表示不确定性)。具体而言,上图,观测值附件的采样值较小, 最大的采样值出现在预测函数值较小且预测不确定性较大的点;中图,虽然新观测值的左侧仍然存在 较大的方差,但是右侧的预测值均值非常低,下一次的采样可以在新观测值的右侧进行;下图,虽然 在实际最大值处几乎不存在任何不确定性,但考虑到目前为止,该点预计能够获得最大的预期提升, 下一次评估会在此处进行。 2.代理模型 一般而言,贝叶斯优化会采用高斯过程[124]对目标函数进行建模,主要原因在于高 斯过程能够很好地矫正估计值的不确定性且预测的分布具有闭式可计算性。事实上,高 斯过程所生成的多维高斯分布,可以对任何目标函数进行建模,具有极大的灵活性。高 斯过程..mk.λλλ.,,....主要由均值函数m.λ.和协方差矩阵函数k.λλ,..构成。需要注 意的是,在贝叶斯优化中,均值函数一般直接设置为常数。无噪声情形下,均值预测值 μ(.)和方差预测值σ2(.)的计算方法如下所示: μ.λkKy..* T1., σk2T1.λλλkKk....,.** . (1.4) 其中,k*表示 λ和所有当前观测值之间的协方差向量;K表示所有已评估配置的协方差 矩阵;y表示观测函数值。值得一提的是,高斯过程的质量完全取决于协方差核函数。 常用的协方差核函数是Mátern 5/2核函数,该方法的超参主要由马尔科夫链蒙特卡洛 (Markov Chain Monte Carlo,MCMC)积分求得[140]。 具有标准核的高斯过程存在的一个不足是计算量与数据点呈立方关系,这在一定程 度上限制了标准高斯过程的应用范围,除非是采用了并行运算或者是降低精度以减少函 数评估的运算量。不过在实际任务中,使用可扩展的高斯过程近似可以避免该不足,如 稀疏高斯过程。这些方法通过使用原始数据集的子集作为诱导点来近似全高斯过程,进 而获得核矩阵K。同时,这些方法支持高斯过程的贝叶斯优化扩展到更多的数据点, 进而能够优化随机SAT求解器的参数[62]。不过对这类近似方法也存在着一些争议,一 方面是不确定度估计的校准过程,另一方面是对标准HPO的适用性并没有经过验证和 测试[104,154]。 具有标准核的高斯过程的另外一个不足是应对高维时的可扩展性差。基于此,目 前有非常多的扩展版本致力于处理具有大量超参配置空间的固有属性所带来的求解问 题,如随机表征的使用[153]、在分块的配置空间上使用高斯过程[154]、圆柱核[114]和自适 应核[40,75]等。 由于很多机器学习模型都比高斯过程更具灵活性和可扩展性,因而有大量的研究工 作致力于将这些机器学习方法适配到贝叶斯优化过程中。首先,深度神经网络是一类非 常灵活且具有可扩展性的方法。最为简单的一种适配方法是将神经网络作为预处理输入 的特征提取器,将最后隐层的输出作为贝叶斯线性回归的基函数[141]。更进一步,可以 3.配置空间 最初,贝叶斯优化主要用来求解框式约束的实数函数。然而,在实际工作中,对于 很多机器学习中的超参(如神经网络的学习率或支持向量机中的正则化项),可以直接 优化可衡量变化的指数项的指数。例如,从0.001到0.01的变化与从0.1到1的变化影 响较为接近。而输入翘曲[142]技术通过将每个维度的输入用一个含有两个参数的贝塔分 布来替代并进行优化,最终能够在优化过程中自动学习出超参的相应变换。 需要说明的是,框式约束存在一个明显的限制,即需要用户提前定义这些约束。为 了避免该限制,可在优化过程中动态扩展配置空间[113,136]。除此之外,也可以采用分布 估计式算法TPE[12],该算法能够应对具有先验(如高斯先验)的无限空间。 对于整型和类别型超参而言,在实际任务中需要对其进行特殊处理。不过工作量较 小,只需对核函数和优化过程进行简单适配即可直接应用到常规的贝叶斯优化模型中, 具体内容可参阅文献[58]的12.1.2节或文献[42]。另外,像分解机和随机森林等模型都 可以用来处理整型和类别型超参。 相对而言,条件型超参仍然是一个非常活跃的研究领域,第5章和第6章都会具 体介绍到近期的自动机器学习系统中条件超参空间的处理方法。直观而言,树形模型 能够很好地处理条件型超参,如随机森林[59]和TPE[12]等方法。然而,由于高斯过程 比其他模型具有更多的优势,所以有大量的方法致力于为结构化的配置空间设计合适 的核函数[4,12,63,70,92,96,146]。 4.受约束的贝叶斯优化 实际的应用场景中存在着各种各样的约束,如内存消耗[139,149]、训练时间[149]、预 测时间[41,43]、压缩模型的精度[41]、耗电[43],以及最为简单的训练成功与否[43]。 事实上,约束条件可以简化成一个二进制(即成功或失败)的观测变量[88]。而在自 动机器学习中,最为典型的约束条件是内存约束和时间约束。因为在具体学习过程中, 需要保证算法可以在一个共享的计算系统上进行训练,同时需要保证单个慢速的算法配 置不会耗用HPO的所有可用时间[34,149](第4章和第6章也会介绍这部分内容)。 约束也有可能是未知的。换言之,可以观测和建模一个辅助约束函数,但是只有在 目标函数评估完之后才能知道约束是否被满足[46]。举例而言,支持向量机的预测时间 只有在模型训练时才能获得,因为支持向量机的预测时间依赖于训练过程中支持向量的 个数。 衡量约束是否被满足的最为简单的方法是定义一个惩罚值(至少同在最坏情况下的 观测损失值一样差),并用该惩罚值作为失败运行的观测变量[34,45,59,149]。而更为高级 的方法会直接对违反一个或多个约束的概率进行建模,同时会积极搜索那些更能满足给 定约束条件的超参配置[41,43,46,88]。 通过使用信息理论采集函数,贝叶斯优化框架可以解耦目标函数评估和约束评估, 进而能够动态地选择下一次的评估对象(即约束或目标函数)[43,55]。尤其是在目标函数 评估和约束评估各自所需的计算时间差异较大时,对两者进行解耦价值更为显著,如深 度神经网络的性能评估和内存占用评估[43]所需的时间差异就较为明显。 1.4 多保真度优化 不断增长的数据规模和模型复杂度使得超参优化变得更加困难,因为它们使得HPO 的黑盒性能评估代价变得更大。如今,在大规模的数据集上哪怕只是进行一组超参配置 的训练,很容易就超过几小时甚至几天的时间[85]。 加快人工调优速度的一种常见技术是在小规模的数据子集上通过各种简化手段来探 索模型或超参配置,如降低训练迭代次数、减少特征数量、只使用一个或几个交叉验证组、 对图像进行下采样等。而多保真度方法通过对真实损失函数的低保真度近似进行最小化, 能够将这些启发式规则转化为正式算法。虽然这些近似方法对优化性能和优化所需运行 时间进行了平衡,但事实上,最终所获得的运行加速性能往往会超过近似误差。 本小节内容概要如下:首先,本节对建模算法训练过程中的学习曲线并基于对新增 资源是否有价值的预测而决定是否停止训练的早停法进行介绍;其次,对能够从给定算 法或超参配置的有限集合中选择一种算法或超参配置的筛选方法进行讨论;最后,本节 对若干多保真度方法进行介绍,这些方法能够主动地确定那些为找到最佳超参配置提供 最多信息的保真度。另外,第2章和第3章也对多保真度方法进行了介绍。其中,第2 章讨论了如何跨数据集使用多保真度方法,第3章描述了能够进行神经网络架构搜索的 低保真度近似方法。 1.4.1 基于学习曲线预测的早停法 在HPO的多保真度方法中,早停法是比较典型的一种方法。该方法首先会对HPO 优化过程中的学习曲线进行评估和建模[82,123],随后对一个给定的超参配置是继续投入 训练资源还是停止训练过程进行决策。实际上,学习曲线有多种,如逐步扩大训练数据 集时,同一个超参配置在训练过程中的性能变化;又如,针对一个迭代算法而言,学习 曲线可以是每轮迭代中的算法性能表现(如果性能计算代价较为巨大,可以每隔i轮计 算一次性能)。 学习曲线外推法主要用来进行预测性终止[26],该方法会学习一个能够为特定超参配 置的部分观测曲线进行推断的学习曲线模型,并对该配置在接下来的训练过程中所能取 得的性能进行预测,如果预测的性能无法达到目前已获得的最佳优化性能,便停止训练 过程。具体而言,每条学习曲线都会被建模成一个来自11个不同科学领域的参数函数 的加权组合。通过MCMC方法对这些函数的参数和权重进行采样,以最小化拟合部分 观测学习曲线的损失值。随后,获得一个预测分布,基于该分布可知随后的训练结果能 否超越当前最佳模型的概率,进而基于此概率来决定是否停止训练过程。在神经网络优 化中,如果将预测终止准则与贝叶斯优化进行结合,相较于现有的黑盒贝叶斯优化,预 测终止准则会获得更低的错误率。平均而言,该方法能够将优化速度提高两倍,并且能 够为CIFAR-10数据集(没有进行数据增强操作)找到当前最为领先的神经网络模型[26]。 然而,上述方法无法对不同超参配置之间的信息进行共享,但这并非不能实现。事 实上,通过将基函数作为贝叶斯神经网络的输出层[80],可实现不同超参配置之间的信息 共享。进而,可以对任意超参配置的基函数的参数和权重进行预测,从而能够获得完整 的学习曲线。除此之外,也可以直接将之前的学习曲线作为基函数推断器[21]。虽然实验 结果还没有清楚地表明本节中所提出的方法是否优于预先设定的参数函数,但是无须手 动设计参数函数这本身就是一个明显的优势。 冻—融贝叶斯优化 [148]是将学习曲线完全集成到贝叶斯优化的建模和选择过程。与 直接终止某个超参配置的训练过程相反,冻—融贝叶斯优化首先会用较少的迭代次数来 训练模型,随后对该模型进行挂起(即进行“冷冻”,暂停训练)。接下来,贝叶斯优 化会从众多暂停训练的机器学习模型中选择一个进行“融化”,即继续进行训练。另外, 该方法也会依据实际情况来决定是否启动一个新的超参配置进行训练。具体而言,冻— 融贝叶斯优化通过采用常规高斯过程对收敛算法的性能进行建模,并且引入一个对应于 指数衰减函数的特殊协方差函数,采用单个学习曲线高斯过程对学习曲线进行建模。 1.4.2 基于Bandit的选择方法 本节主要对能够从给定的算法有限集合中挑选出最好算法的方法进行介绍,这些方 法主要是基于算法性能的低保真度近似来进行挑选的;最后,本节对自适应配置策略的 潜在组合进行了讨论。本节会重点关注基于Bandit策略的变体:连续减半(successive halving)和超带(hyperband),因为这些变体的性能非常优越,尤其是在深度学习算法 的优化上。严格意义上,本小节将要介绍的一些模型也会对学习曲线进行建模,但是这 些模型没有提供能够选择新配置的方法。 首先,简要介绍多保真度选择算法的发展历史。2000年,佩特拉克在文献[120]中 指出在小的数据子集上对各种算法进行测试是一种方便且高效的算法选择机制。随后的 方法主要采用迭代算法淘汰机制对超参配置进行剔除,如超参配置在数据子集上表现不 够良好[17],或者其性能明显低于性能最好的一组超参配置[86],又或者表现差于用户给 定的最好的一组超参配置[143],或者连算法的性能上界都劣于已知的最好算法[128]。与之 类似,当某超参配置在一个或若干个交叉验证集上表现不够良好时,也可以对该超参配 置进行剔除[149]。最后,贾米森和塔尔沃卡 [69]提出使用最早由卡宁等人[76]引入的连续 对半算法对超参配置进行优化。 连续对半算法是一种极其简单却高效的多保真度选择方法,也是目前被普遍采用的 多保真度选择方法。具体而言,该方法首先将给定的预算均匀地分配到各个算法上;随 后,基于各个算法的评估结果,从所有算法中淘汰掉一半表现差的算法;接下来,将总 预算平均分配到保留下来的一半算法上a,并继续淘汰一半表现差的算法,重复此过程, 直到最后只剩下一个算法为止。为了更为直观地了解连续对半方法的整体流程,图1.3 给出了具体示例。 a 准确一点而言,每轮淘汰的算法比例为 ηη.1,保留下来的每个算法的预算为上一轮的η倍。其中,η为 指定的超参,取值范围为2~3。具体内容可参阅超带[90]。 图1.3 连续对半算法示例 注:初始为8个算法/配置,总的预算为18。每轮评估之后,会淘汰一半的算法,保留下的算法的预 算会加倍。 贾米森和塔尔沃卡[69]对几种常见的Bandit算法进行了比较,实验结果表明,不管 是在所需的迭代次数上还是在所需的计算时间上,连续对半方法都优于对比方法。另外, 如果算法收敛性较好,理论上连续对半方法会优于均匀预算分配策略。同时,该方法也 优于很多著名的Bandit策略,如UCB和EXP3。 虽然连续对半算法效率很高,但是受限于如何平衡预算和配置数量。具体而言,当 给定总预算后,用户需要提前决定是为每个配置分配较少的预算以尝试更多的配置, 还是尝试较少的配置以确保每个配置能够得到尽可能多的预算。在实际任务中,不管是 做何选择都会面临一定的问题。因为分配较少的预算,有可能会导致一些好的配置过早 地被终止;为每个配置分配过多的预算,会导致一些差的配置运行时间较长而浪费计算 资源。 超带[90]通过对冲策略来解决随机配置采样中预算资源与配置数量的平衡问题。具 体而言,超带首先基于“配置数量,单个配置预算”的组合,将总资源分成若干组;随后, 针对每组采用连续对半方法来获得该组的最佳配置。虽然对冲策略包含在最大预算下运 行某些配置的情形,不过在最大预算下超带也只会比普通随机搜索多花费一个常数因子 的时间。事实上,由于超带采用了低保真度评估方法,相比于普通随机搜索和黑盒贝叶 斯优化,在数据子集、特征子集和迭代算法(深度神经网络的随机梯度下降)上,超带 都更具优势。 虽然超带能够很好地应用于深度神经网络,但是其仍受限于难以将配置设计策略应 用到函数评估上。为应对此限制,最新方法BOHB[33]对贝叶斯优化和超带的各自优势进 行了有机结合:优异的初始表现,通过采用超带的低保真度评估方法可实现开局时的快 速改进;强劲的终局性能,通过将超带中的随机搜索替换为贝叶斯优化可获得更好的性 能。除此之外,BOHB也高效地使用了并行资源,并且能够应对含有一个到多个超参的 问题域。BOHB的贝叶斯优化组件类似于TPE[12],主要的不同是采用了多维核密度估计 量。它只适用于拟合至少执行了Λ.1次评估(Λ为超参数量)的最高保真度的模型。 显然,BOHB的第一个模型会基于最低保真度来拟合,但随着时间的推移,模型的训练 会逐步基于更高的保真度。不过,模型的连续减半过程会一直基于低保真度。经验上看, BOHB在优化支持向量机、神经网络、强化学习及本节所给出的大多数算法[33]上,都 优于几种目前先进的超参优化模型。另外,文献[15,151]给出了超带和贝叶斯优化的 进一步结合方案。 值得注意的是,多保真度评估也可以通过其他方式与HPO相结合。如文献[152]所 给出的方案并非直接在低保真度和高保真度之间进行切换,而是先在原始数据的子集上 进行HPO操作以获得最好的超参配置,随后将获得的超参配置作为在完整数据集上进 行HPO操作的初始值。同样,为了加快CASH问题的求解速度,可以根据算法及超参 配置在小的数据子集上的表现好坏,迭代地将其从配置空间中进行剔除[159]。 1.4.3 保真度的适应性选择 上面小节中的所有方法都会遵循一个预先给定的保真度规划。实际任务中,更希望 能够基于给定的先前观测值来主动选择合适的保真度,以避免保真度提前规划的误设。 多任务贝叶斯优化[147]采用多任务高斯过程来建模相关任务的性能,能够在优化过 程中自动学习任务之间的相关性。基于代价敏感的信息理论采集函数,多任务贝叶斯优 化能够在低成本、低保真度的任务和高成本、高保真度的目标任务之间进行动态切换。 事实上,在优化开始时,该方法会在低成本的任务上探索配置空间;而在优化的后面部分, 该方法会切换到高成本的配置空间上进行优化。整体而言,该方法大约减少了一半的超 参优化所需时间。除此之外,多任务贝叶斯优化也可以用来传递之前所优化任务的相关 信息(更多细节部分会在第2章具体介绍)。 在实际任务中,不管是多任务贝叶斯优化还是之前介绍过的方法都需要预先设定一 组保真度。然而,预先设定一组保真度会存在一定的不足:首先,预先设定的一组保真 度会存在误设的情况[74,78];其次,可以处理的保真度数量有限,通常是5个甚至更少。 因此,可以考虑利用保真度的平滑依赖性(如所使用的数据子集大小)。一般而言,连 续性的保真度能够产生更好的结果。例如,采用数据集对某组超参配置进行评估时,可 以将完整数据集的选择设置为一个连续百分比来进行控制;又如,信息增益和评估所需 时间的权衡[78]。为了充分利用性能通常随着数据增多或迭代次数减少而增加的领域知识, 文献[78]为数据子集构建了一个特殊的核函数。相比于黑盒贝叶斯优化,多任务贝叶斯 优化的这种泛化操作使得性能更佳,并且能够获得10~100倍的优化加速。 与信息理论采集函数类似,基于上界置信区间(Upper Confidence Bound,UCB) 采集函数的贝叶斯优化也能够扩展到多保真度[73,74]。虽然第一个基于UCB的算法 MFGP-UCB[73]需要预先定义好保真度,但后续的BOCA[74]算法无须预先设定保真度。 目前,BOCA算法已经被应用到多个连续保真度的优化上。相信在未来的HPO研究中, 针对多个连续保真度的HPO优化问题会获得越来越多的关注。 一般而言,能够自动选择保真度的方法比在1.4.2节所讨论的基于Bandit的方法更 为吸引人,也更为强大。但需要注意的是,在实践中,想要成功地对保真度进行自动选 择需要更为强大的模型。假如模型不够强大(如缺乏足够的训练数据或者模型不匹配), 它们有可能会在高的保真度评估上花费太多时间。而且,在时间限制给定的情况下,1.4.2 节所讨论的健壮性更强的固定预算策略有可能会获得更好的性能。 1.5 AutoML的相关应用 本节首先对自动机器学习中最为重要的一些超参优化系统进行介绍,随后对超参优 化的一些典型应用进行概述和介绍。 20世纪90年代,网格搜索[71,107]就开始在超参优化中应用。到2002年,一些早期 的机器学习工具开始支持网格搜索[35]。第一批应用于HPO的适应性优化方法是深度优 先的贪婪搜索[82]和模式搜索[109],两者的性能都优于默认的超参配置。另外,模式搜索 的性能优于网格搜索。至于遗传算法,最开始(2004年)被用于优化RBF-SVM中的超 参C和.。相比于网格搜索,基于遗传算法的超参优化能够在更少的时间内取得更好的 分类结果。同年,相关研究利用进化算法来自动学习SVM中3个不同核函数的组成方 式(即核超参数)及联合选择相应特征子集。由结果看出,组合而成的核函数能够优于 所有的单个核函数。与之类似,文献[129]采用遗传算法同时对SVM或神经网络模型 的特征和超参进行选择。 CMA-ES最早被用于超参优化是在2005年[38],主要用来优化SVM的超参:C、.、 输入数据每一维度的样本数li、完整的旋转和缩放矩阵。最近,CMA-ES在并行HPO上 表现非常突出,当并行优化(同时运行在30个GPU上)一个具有19个超参的深度神 经网络时[91],CMA-ES已经超过了当前最好的贝叶斯优化工具。 2009年,埃斯卡兰特等[30]将HPO问题拓展成全模型选择问题,即同时包含预处理 算法、特征选择算法、分类器和所有相关的超参。通过使用HPO,该方法能够基于现有 的机器学习算法构建完整的机器学习管道。埃斯卡兰特等通过实践发现,他们不仅能够 在不需要任何领域知识的前提下将他们的方法应用到任何数据集上,而且同时证明了他 们方法的可应用领域非常广泛[32,49]。另外,他们所提出的粒子群模型选择算法(PSMS) 基于修改后的粒子群优化器能够适用于条件型配置空间。而通过将PSMS与一个自定义 的集成策略(即将不同代的最优解进行组合[31])进行结合,可以有效地避免模型过拟合。 需要注意的是,由于粒子群优化最初是用来优化连续配置空间的,所以后来的PSMS 算法会采用遗传算法来优化管道的结构,而粒子群优化算法只能用来优化每条管道中 的超参[145]。 据我们所知,贝叶斯优化在HPO上的第一个应用是在2005年,即弗罗利希和泽尔[39] 使用在线高斯过程和EI结合的方式来优化SVM的超参。相比于网格搜索,在一个具有 2个超参的分类问题上获得了10倍的加速;在一个具有3个超参的回归问题上获得了 100倍的加速。在文献[84]中,科恩等人提出采用贝叶斯优化来学习整个机器学习管道 中的超参。具体而言,他们使用一个固定的机器学习管道,并对分类器的超参(即每类 的分类阈值和类别权重)进行优化。 在2011年,贝尔格斯特等[12]率先将贝叶斯优化应用到深度神经网络的超参优化, 性能上同时超越了手动搜索和随机搜索。此外,他们还证明了TPE方法的性能强于基于 高斯过程的优化方法。在联合神经结构搜索和超参优化上,TPE方法和随机森林贝叶斯 优化方法都取得了良好性能[14,106]。 将贝叶斯优化应用到HPO的另一个重要进展是2012年斯诺克等的论文 [140],该论 文介绍了针对在Spearmint系统中所实现的基于高斯过程的HPO的若干技巧,取得了深 度神经网络超参优化的最新基准结果。 与全模型选择范式不同的另一条线是,Auto-WEKA[149](具体内容见第4章)所介 绍的CASH(算法选择和超参优化组合)问题。在CASH问题中,分类算法的选择被 建模成类别型变量,算法超参被建模成条件型变量,而基于随机森林的贝叶斯优化系统 SMAC[59]主要在最终所形成的786维配置空间中对超参配置进行联合优化。 近年来,多保真度方法变得越来越流行,尤其是在深度学习中。首先,通过采用如 基于数据子集、特征子集或减少迭代算法运行次数的低保真度近似方法,超带[90]的效 果能够超越黑盒贝叶斯优化算法,因为黑盒贝叶斯优化算法没有考虑到这些低保真度。 2018年,福克纳等的论文[33]介绍了一种灵活、鲁棒且可并行的贝叶斯优化与超带的结 合方案—BOHB。该方案能够在众多优化问题上显著超过超带和黑盒贝叶斯优化,包 括支持向量机、各种类型的神经网络及强化学习算法等。 接下来,针对在HPO的实际应用过程中应选择什么样的工具给出如下建议。 .如果适用于多保真度(即如果定义成本更低的目标函数是可行的,这样能确保这 些低成本目标函数的性能与完整目标函数的性能大致相关),推荐使用BOHB[33] 作为健壮、高效、通用且可并行化的超参优化的一种默认算法。 .如果不适用于多保真度: — 假如所有超参都是实数并且只能提供几十次的函数评估时,推荐使用基于 高斯过程的贝叶斯优化工具,如Spearmint[140]; — 对于大规模的条件型配置空间而言,推荐使用基于随机森林的SMAC[59]或 者TPE[14]方法,因为它们能够在这类任务上取得良好的性能表现[29]; — 对于纯实数空间且成本相对较低的目标函数而言,假如能够提供上百次以 上的函数评估,推荐使用CMA-ES[51]。 1.6 探讨与展望 本节主要对HPO进行了探讨和展望,希望通过对HPO的开放性问题、当前研究问 题及潜在的进展所进行的讨论,读者能够进一步理解HPO,HPO能够得到进一步发展。 需要注意的是,虽然超参数的重要性和配置空间的定义是相关的,但本章并没有对它们 进行讨论。因为它们属于元学习的范畴,第2章会对它们进行具体讨论和阐述。 1.6.1 基准测试和基线模型 当给定一系列的HPO方法时,接下来需要做的是如何评估每个方法各自的优劣势。 为了公平地比较不同的HPO方法,自动机器学习社区需要设计并商定一组通用的基准 测试,以能够很好地评估随着时间而出现的新的HPO变体,如多保真度优化。为了让 读者对此有一个直观地认识,这里简单介绍COCO(COmparing Continuous Optimizers) 平台:COCO平台为连续优化提供基准测试和分析工具,是每年一度的黑盒优化基准 测试挑战赛(BBOB)[11]的比赛平台。沿着HPO这条线,目前已经产生了超参优化库 HPOlib [29]和针对贝叶斯优化方法的基准测试集[25]。但是,这两者都没有获得如COCO 平台那样的吸引力和影响力。 另外,自动机器学习社区需要明确地定义度量标准,而当前的情况是不同的工作采 用不同的度量标准。当度量标准不同时,需要明确各工作所给出的算法性能是基于验证 集还是基于测试集。验证集的性能有助于独立地研究优化器的强度,因为其避免了从验 证集换到测试集的评估过程中所引入的噪声;而测试集的性能表现,将有助于评估优化 器的过拟合程度,因为部分优化器的过拟合程度会强于其他优化器,但只有通过测试集 才能诊断出优化器的过拟合程度。当度量标准不同时,另外一个需要明确的点是算法的 性能是基于给定的函数评估次数还是基于给定的评估时间。后者更关注于评估不同超参 配置所用的时间差异和优化开销,进而能够反映实践过程中的真实需求;而前者无须关 注所使用的硬件,能够更为方便地重现相同的实验结果。为了提高可重复性,尤其是基 于给定评估时间的研究应当发布一个已实现的版本。 需要注意的是,将新的基准与强化后的基线模型进行对比是非常重要的,这也是 建议在提出新的HPO方法时最好配备相应的已实现版本的另一个原因。然而,针对 HPO,目前还没有如深度学习研究那样便捷可用的基础模块单元[2,117]一样的软件库。 一个简单且有效的基线模型可以初步作为实际研究的一个参考,如贾米森和雷希特[68] 建议将采用不同并行化程度的随机搜索与常规随机搜索进行对比,以了解并行化的速 度优势。当与其他优化技术进行比较时,尽量与效果较好的实现版本进行比较,因为 很多时候简单版本的性能可能不够理想,如研究表明贝叶斯优化的简单版本会产生较 差的性能[79,140,142]。 1.6.2 基于梯度的优化 在特定案例中(如最小二乘支持向量机、神经网络),获得模型评估函数在一些模 型超参下的梯度是可能的。与黑盒超参优化不同,基于梯度的优化每次对目标函数的评 估都会获得一个完整的超梯度向量而非单个浮点值,能够加快HPO的求解过程。 在文献[99]中,麦克劳林等人介绍了一种计算验证性能在神经网络的所有连续超 参上精确梯度的方法,并通过带动量的随机梯度下降算法(一种新颖且节省内存的算 法)在整个训练过程中对梯度进行反向传播。通过基于梯度的方法能够高效处理多个 超参,这为模型的超参数化提供了新的范例,并能够在模型类型、正则化和训练方法 上获得更大的灵活性。麦克劳林等人证明了基于梯度的HPO方法能够适用于众多高维 HPO优化问题,如分别优化神经网络中每轮迭代和每层的学习率、优化神经网络中每 层的权重初始化尺度超参、优化逻辑斯蒂回归中每个独立参数的l2范数惩罚项和学习 全新的训练数据集等。需要注意的是,在整个训练过程中进行反向传播会将训练过程的 时间复杂度增加一倍。上述方法也可以被推广应用到其他参数更新算法中[36]。为了克服 完整训练过程中反向传播的必要性,后续工作允许对与训练过程交叉的单独验证集执行 超参更新[5,10,36,37,93]。 目前基于梯度优化的一些示例(如简单模型的超参优化[118]和第3章将会重点介绍 的神经网络架构搜索)展现出了令人满意的结果,甚至超过了当前最好的贝叶斯优化模 型。尽管基于梯度的超参优化方法会高度模型专用,不过该方法可以支持几百个超参数 优化的这一事实会使得HPO得到实质性改进。 1.6.3 可扩展性 尽管多保真度优化近期取得了一些成功,但是由于规模等原因仍然存在很多未 被HPO解决的机器学习问题,可能需要一些更为新颖的解决方法。在这里,规模既 可以指配置空间的大小,也可以指单个模型评估的开销。举例而言,目前还没有任何 针对ImageNet数据集[127]的深度神经网络的HPO相关工作,主要原因在于哪怕是在 ImageNet数据集上训练一个简单的神经网络都会极其耗时。所以在后续的研究过程中, 是否有方法(如1.4节的多保真度方法、基于梯度的方法,又或者是第2章将要介绍的 元学习方法)能够跳出1.3节的黑盒视角来解决HPO优化中的规模限制问题将显得尤为 重要。虽然第3章介绍了将在小数据集上学习的神经网络构建模块应用到ImageNet数 据集上的首次成功尝试,但需要注意的是,其训练过程中的超参仍须手动设定。 考虑到并行计算的必要性,亟须能充分利用大规模计算集群的新方法。虽然目前已 存在众多并行贝叶斯优化相关的研究工作[12,24,33,44,54,60,135,140],除了1.3.2小节中介 绍的神经网络[141],目前为止还没有一种方法可以扩展到数百个工作机上。尽管这些方 法很受欢迎,但对于HPO而言,只有一个例外即成功应用到深度神经网络上[91]a,实际 上,基于种群的方法还没有被证明能够适用于针对较大数据集(即数据集含有的数据点 多于几千个)的超参优化。 期待在后续的研究工作中,有更多撇开黑盒视角的更加高级、更加专有化的优化方 法,能够进一步将超参扩展到更加有趣、更加有价值的问题上。 1.6.4 过拟合和泛化性 过拟合是超参优化中的一个开放性问题。如1.2节的问题描述所言,通常采用有限 数量的数据点来计算待优化的验证损失,因此无须去优化未见的测试数据集的泛化性。 与训练数据集上机器学习算法可能出现过拟合类似,在有限的验证数据集上,同样有可 能发生超参数过拟合这一问题。实验也已证明这一点,即在有限的验证数据集上出现超 参数过拟合[20,81]。 减少过拟合的一种简单策略是针对每个评估函数采用不同的训练和验证集划分方 法。另外,实验已证明通过采用留出(hold-out)法和交叉验证策略能够有效提高SVM 调优的泛化性能[95]。而根据贝叶斯优化中高斯过程模型的最小预测均值而非最小观测值 来选择最终的超参配置,能够进一步提高配置的健壮性[95]。 另一种方案是采用单独留出的数据集来评估HPO所找到的配置,以避免配置偏向 于标准验证数据集[108,159]。事实上,不同的泛化性能近似值会带来不同的测试性能[108], 有研究表明,不同的重采样策略会导致支持向量机的HPO存在可测量的性能差异[150]。 解决过拟合的另一种思路是找到目标函数的稳定最优解而非尖锐性最优解[112]。对 于稳定最优解,超参的轻微扰动不会改变最优解附近的函数值,而对于尖锐性最优解, 超参的轻微扰动将会改变最优解附近的函数值。当将学习出的超参应用到一个新的且未 a 第3章会具体介绍应用于神经网络架构搜索问题的基于种群的方法。 见过的数据集(即测试数据集)时,稳定最优解能够带来更好的泛化性能。例如,在支 持向量机的HPO优化中,基于稳定最优解的采集函数只出现了轻微程度的过拟合,而 常规贝叶斯优化方法却会出现较为严重的过拟合现象[112]。 如果想要更进一步地解决过拟合问题,可以考虑集成算法和1.2.2节介绍的贝叶斯 算法。当给定所有技术方案时,对于如何最大程度地避免过拟合还没有一种共识性技术。 换言之,在特定HPO问题上,哪种技术方案最优仍然取决于用户。总的来说,在实际 任务中,HPO问题不同,最佳策略也可能会不同,即因问题而异。 1.6.5 任意尺度的管道构建 目前为止,讨论的所有HPO技术都会假定机器学习管道的组件是有限的或者神经 网络的最大层级数量是有限的。对于机器学习的管道构建(本书的第2篇会着重介绍这 部分内容)而言,使用多个特征预处理算法并能够基于问题本身来动态添加这些算法是 非常有用的。具体来说,可通过超参数来扩大搜索空间,进而能够选择合适的预处理算 法及其对应的超参数。虽然标准黑盒优化工具能够较为容易地将若干个预处理程序(及 其超参数)以条件型超参的形式添加到搜索空间中,但是难以支持任意数量的预处理程 序(及其超参数)。 一种可行且自然的方案是采用树状管道优化工具包[TPOT(treestructured pipeline optimization toolkit) [115],详情见第8章]来解决任意尺度管道的构建问题,TPOT主要 采用遗传规划方法并通过语法来描述可能的管道结构。除此之外,为了避免最终生成过 于复杂的管道,TPOT采用多目标优化来平衡管道的复杂度和性能。 除TPOT这类管道构建方法之外,还存在一种基于层级规划的管道构建范式,在实 际任务中表现出了良好的性能。举例而言,近期的ML-Plan模型[101,108]通过采用层级任 务网络,获得了具有竞争力的性能表现(相比于Auto-WEKA[149]和Auto-sklearn[34])。 到目前为止,上面介绍的方法并不总是优于固定管道长度的AutoML系统,不过更 长的管道可能带来更多的性能改进。与之类似,神经网络架构搜索会产生复杂的配置空 间,第3章会具体介绍解决此问题的相关方法。 致谢感谢卢卡·弗朗切斯基、拉古·拉詹、斯特凡·法尔克纳和阿林德·卡德拉对手 稿提出的宝贵建议。 参考文献 [1] Proceedings of the International Conference on Learning Representations (ICLR’18) (2018), published online: iclr.cc. [2] Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, G., Davis, A., Dean, J., Devin, M., Ghemawat, S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mané, D., Monga, R., Moore, S., Murray, D., Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viégas, F., Vinyals, O.,Warden, P.,Wattenberg, M.,Wicke, M., Yu, Y., Zheng, X.: TensorFlow: Large-scale machine learning on heterogeneous systems (2015), https://www.tensorflow.org/. [3] Ahmed, M., Shahriari, B., Schmidt, M.: Do we need “harmless” Bayesian optimization and “first-order” Bayesian optimization. In: NeurIPS Workshop on Bayesian Optimization (BayesOpt’16) (2016). [4] Alaa, A., van der Schaar, M.: AutoPrognosis: Automated Clinical Prognostic Modeling via Bayesian Optimization with Structured Kernel Learning. In: Dy and Krause [27], pp. 139–148. [5] Almeida, L.B., Langlois, T., Amaral, J.D., Plakhov, A.: Parameter Adaptation in Stochastic Optimization, p. 111–134. Cambridge University Press (1999). [6] Amazon: Automatic model tuning (2018), https://docs.aws.amazon.com/sagemaker/latest/dg/ automatic-model-tuning.html. [7] Bach, F., Blei, D. (eds.): Proceedings of the 32nd International Conference on Machine Learning (ICML’15), vol. 37. Omnipress (2015). [8] Balcan, M., Weinberger, K. (eds.): Proceedings of the 33rd International Conference on Machine Learning (ICML’17), vol. 48. Proceedings of Machine Learning Research (2016). [9] Bartlett, P., Pereira, F., Burges, C., Bottou, L., Weinberger, K. (eds.): Proceedings of the 26th International Conference on Advances in Neural Information Processing Systems (NeurIPS’12) (2012). [10] Baydin, A.G., Cornish, R., Rubio, D.M., Schmidt, M., Wood, F.: Online Learning Rate Adaption with Hypergradient Descent. In: Proceedings of the International Conference on Learning Representations (ICLR’18) [1], published online: iclr.cc. [11] BBOBies: Black-box Optimization Benchmarking (BBOB) workshop series (2018), http://numbbo. github.io/workshops/index.html. [12] Bergstra, J., Bardenet, R., Bengio, Y., Kégl, B.: Algorithms for hyper-parameter optimization. In: Shawe-Taylor, J., Zemel, R., Bartlett, P., Pereira, F., Weinberger, K. (eds.) Proceedings of the 25th International Conference on Advances in Neural Information Processing Systems (NeurIPS’11). pp. 2546–2554 (2011). [13] Bergstra, J., Bengio, Y.: Random search for hyper-parameter optimization. Journal of Machine Learning Research 13, 281–305 (2012). [14] Bergstra, J., Yamins, D., Cox, D.: Making a science of model search: Hyperparameter optimization in hundreds of dimensions for vision architectures. In: Dasgupta and McAllester [23], pp. 115–123. [15] Bertrand, H., Ardon, R., Perrot, M., Bloch, I.: Hyperparameter optimization of deep neural networks: Combining hyperband with Bayesian model selection. In: Conférence sur l’Apprentissage Automatique (2017). [16] Bischl, B., Mersmann, O., Trautmann, H., Weihs, C.: Resampling methods for meta-model validation with recommendations for evolutionary computation. Evolutionary Computation 20(2), 249–275 (2012). [17] Van den Bosch, A.: Wrapped progressive sampling search for optimizing learning algorithm parameters. In: Proceedings of the sixteenth Belgian-Dutch Conference on Artificial Intelligence. pp. 219–226 (2004). [18] Brochu, E., Cora, V., de Freitas, N.: A tutorial on Bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. arXiv:1012.2599v1 [cs.LG] (2010). [19] Bürger, F., Pauli, J.: A Holistic Classification Optimization Framework with Feature Selection, Preprocessing, Manifold Learning and Classifiers., pp. 52–68. Springer (2015). [20] Cawley, G., Talbot, N.: On Overfitting in Model Selection and Subsequent Selection Bias in Performance Evaluation. Journal of Machine Learning Research 11 (2010). [21] Chandrashekaran, A., Lane, I.: Speeding up Hyper-parameter Optimization by Extrapolation of Learning Curves using Previous Builds. In: Ceci, M., Hollmen, J., Todorovski, L., Vens, C., D.eroski, S. (eds.) Machine Learning and Knowledge Discovery in Databases (ECML/PKDD’17). Lecture Notes in Computer Science, vol. 10534. Springer (2017). [22] Dahl, G., Sainath, T., Hinton, G.: Improving deep neural networks for LVCSR using rectified linear units and dropout. In: Adams, M., Zhao, V. (eds.) International Conference on Acoustics, Speech and Signal Processing (ICASSP’13). pp. 8609–8613. IEEE Computer Society Press (2013). [23] Dasgupta, S., McAllester, D. (eds.): Proceedings of the 30th International Conference on Machine Learning (ICML’13). Omnipress (2014). [24] Desautels, T., Krause, A., Burdick, J.: Parallelizing exploration-exploitation tradeoffs in Gaussian process bandit optimization. Journal of Machine Learning Research 15, 4053–4103 (2014). [25] Dewancker, I., McCourt, M., Clark, S., Hayes, P., Johnson, A., Ke, G.: A stratified analysis of Bayesian optimization methods. arXiv:1603.09441v1 [cs.LG] (2016). [26] Domhan, T., Springenberg, J.T., Hutter, F.: Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves. In: Yang, Q., Wooldridge, M. (eds.) Proceedings of the 25th International Joint Conference on Artificial Intelligence (IJCAI’15). pp. 3460–3468 (2015). [27] Dy, J., Krause, A. (eds.): Proceedings of the 35th International Conference on Machine Learning (ICML’18), vol. 80. Proceedings of Machine Learning Research (2018). [28] Eberhart, R., Shi, Y.: Comparison between genetic algorithms and particle swarm optimization. In: Porto, V., Saravanan, N., Waagen, D., Eiben, A. (eds.) 7th International conference on evolutionary programming. pp. 611–616. Springer (1998). [29] Eggensperger, K., Feurer, M., Hutter, F., Bergstra, J., Snoek, J., Hoos, H., Leyton-Brown, K.: Towards an empirical foundation for assessing Bayesian optimization of hyperparameters. In: NeurIPS Workshop on Bayesian Optimization in Theory and Practice (BayesOpt’13) (2013). [30] Escalante, H., Montes, M., Sucar, E.: Particle Swarm Model Selection. Journal of Machine Learning Research 10, 405–440 (2009). [31] Escalante, H., Montes, M., Sucar, E.: Ensemble particle swarm model selection. In: Proceedings of the 2010 IEEE International Joint Conference on Neural Networks (IJCNN). pp. 1–8. IEEE Computer Society Press (2010). [32] Escalante, H., Montes, M., Villase.or, L.: Particle swarm model selection for authorship verification. In: Bayro-Corrochano, E., Eklundh, J.O. (eds.) Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications. pp. 563–570 (2009). [33] Falkner, S., Klein, A., Hutter, F.: BOHB: Robust and Efficient Hyperparameter Optimization at Scale. In: Dy and Krause [27], pp. 1437–1446. [34] Feurer, M., Klein, A., Eggensperger, K., Springenberg, J.T., Blum, M., Hutter, F.: Efficient and robust automated machine learning. In: Cortes, C., Lawrence, N., Lee, D., Sugiyama, M., Garnett, R. (eds.) Proceedings of the 29th International Conference on Advances in Neural Information Processing Systems (NeurIPS’15). pp. 2962–2970 (2015). [35] Fischer, S., Klinkenberg, R.,Mierswa, I., Ritthoff, O.: Yale: Yet another learning environment – tutorial. Tech. rep., University of Dortmund (2002). [36] Franceschi, L., Donini, M., Frasconi, P., Pontil, M.: Forward and Reverse Gradient-Based Hyperparameter Optimization. In: Precup and Teh [122], pp. 1165–1173. [37] Franceschi, L., Frasconi, P., Salzo, S., Grazzi, R., Pontil, M.: Bilevel Programming for Hyperparameter Optimization and Meta-Learning. In: Dy and Krause [27], pp. 1568–1577. [38] Friedrichs, F., Igel, C.: Evolutionary tuning of multiple SVM parameters. Neurocomputing 64, 107– 117 (2005). [39] Frohlich, H., Zell, A.: Efficient parameter selection for support vector machines in classification and regression via model-based global optimization. In: Prokhorov, D., Levine, D., Ham, F., Howell, W. (eds.) Proceedings of the 2005 IEEE International Joint Conference on Neural Networks (IJCNN). pp. 1431–1436. IEEE Computer Society Press (2005). [40] Gardner, J., Guo, C., Weinberger, K., Garnett, R., Grosse, R.: Discovering and Exploiting Additive Structure for Bayesian Optimization. In: Singh, A., Zhu, J. (eds.) Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics (AISTATS). vol. 54, pp. 1311–1319. Proceedings of Machine Learning Research (2017). [41] Gardner, J., Kusner, M., Xu, Z.,Weinberger, K., Cunningham, J.: Bayesian Optimization with Inequality Constraints. In: Xing and Jebara [157], pp. 937–945. [42] Garrido-Merchán, E., Hernández-Lobato, D.: Dealing with integer-valued variables in Bayesian optimization with Gaussian processes. arXiv:1706.03673v2 [stats.ML] (2017). [43] Gelbart, M., Snoek, J., Adams, R.: Bayesian optimization with unknown constraints. In: Zhang, N., Tian, J. (eds.) Proceedings of the 30th conference on Uncertainty in Artificial Intelligence (UAI’14). AUAI Press (2014). [44] Ginsbourger, D., Le Riche, R., Carraro, L.: Kriging IsWell-Suited to Parallelize Optimization. In: Computational Intelligence in Expensive Optimization Problems, pp. 131–162. Springer (2010). [45] Golovin, D., Solnik, B., Moitra, S., Kochanski, G., Karro, J., Sculley, D.: Google Vizier: A service for black-box optimization. In: Matwin, S., Yu, S., Farooq, F. (eds.) Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and DataMining (KDD). pp. 1487–1495. ACM Press (2017). [46] Gramacy, R., Lee, H.:Optimization under unknown constraints. Bayesian Statistics 9(9), 229–246 (2011). [47] Gretton, A., Robert, C. (eds.): Proceedings of the Seventeenth International Conference on Artificial Intelligence and Statistics (AISTATS), vol. 51. Proceedings of Machine Learning Research (2016). [48] Guyon, I., von Luxburg, U., Bengio, S.,Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R. (eds.): Proceedings of the 31st International Conference on Advances in Neural Information Processing Systems (NeurIPS’17) (2017). [49] Guyon, I., Saffari, A., Dror, G., Cawley, G.: Analysis of the IJCNN 2007 agnostic learning vs. prior knowledge challenge. Neural Networks 21(2), 544–550 (2008). [50] Guyon, I., Saffari, A., Dror, G., Cawley, G.: Model Selection: Beyond the Bayesian/Frequentist Divide. Journal of Machine Learning Research 11, 61–87 (2010). [51] Hansen, N.: The CMA evolution strategy: A tutorial. arXiv:1604.00772v1 [cs.LG] (2016). [52] Hazan, E., Klivans, A., Yuan, Y.: Hyperparameter optimization: A spectral approach. In: Proceedings of the International Conference on Learning Representations (ICLR’18) [1], published online: iclr.cc. [53] Hernandez-Lobato, D., Hernandez-Lobato, J., Shah, A., Adams, R.: Predictive Entropy Search for Multi-objective Bayesian Optimization. In: Balcan and Weinberger [8], pp. 1492–1501. [54] Hernández-Lobato, J., Requeima, J., Pyzer-Knapp, E., Aspuru-Guzik, A.: Parallel and distributed Thompson sampling for large-scale accelerated exploration of chemical space. In: Precup and Teh [122], pp. 1470–1479. [55] Hernández-Lobato, J., Gelbart, M., Adams, R., Hoffman, M., Ghahramani, Z.: A general framework for constrained Bayesian optimization using information-based search. The Journal of Machine Learning Research 17(1), 5549–5601 (2016). [56] Hoeting, J., Madigan, D., Raftery, A., Volinsky, C.: Bayesian model averaging: a tutorial. Statistical science pp. 382–401 (1999). [57] Horn, D., Bischl, B.: Multi-objective parameter configuration of machine learning algorithms using model-based optimization. In: Likas, A. (ed.) 2016 IEEE Symposium Series on Computational Intelligence (SSCI). pp. 1–8. IEEE Computer Society Press (2016). [58] Hutter, F.: Automated Configuration of Algorithms for Solving Hard Computational Problems. Ph.D. thesis, University of British Columbia, Department of Computer Science, Vancouver, Canada (2009). [59] Hutter, F., Hoos, H., Leyton-Brown, K.: Sequential model-based optimization for general algorithm configuration. In: Coello, C. (ed.) Proceedings of the Fifth International Conference on Learning and Intelligent Optimization (LION’11). Lecture Notes in Computer Science, vol. 6683, pp. 507–523. Springer (2011). [60] Hutter, F., Hoos, H., Leyton-Brown, K.: Parallel algorithm configuration. In: Hamadi, Y., Schoenauer, M. (eds.) Proceedings of the Sixth International Conference on Learning and Intelligent Optimization (LION’12). Lecture Notes in Computer Science, vol. 7219, pp. 55–70. Springer (2012). [61] Hutter, F., Hoos, H., Leyton-Brown, K.: An efficient approach for assessing hyperparameter importance. In: Xing and Jebara [157], pp. 754–762. [62] Hutter, F., Hoos, H., Leyton-Brown, K., Murphy, K.: Time-bounded sequential parameter optimization. In: Blum, C. (ed.) Proceedings of the Fourth International Conference on Learning and Intelligent Optimization (LION’10). Lecture Notes in Computer Science, vol. 6073, pp. 281–298. Springer (2010). [63] Hutter, F., Osborne, M.: A kernel for hierarchical parameter spaces. arXiv:1310.5738v1 [stats.ML] (2013). [64] Hutter, F., Lücke, J., Schmidt-Thieme, L.: Beyond Manual Tuning of Hyperparameters. KI -Künstliche Intelligenz 29(4), 329–337 (2015). [65] Igel, C.: Multi-objective Model Selection for Support Vector Machines. In: Coello, C., Aguirre, A., Zitzler, E. (eds.) Evolutionary Multi-Criterion Optimization. pp. 534–546. Springer (2005). [66] Ihler, A., Janzing, D. (eds.): Proceedings of the 32nd conference on Uncertainty in Artificial Intelligence (UAI’16). AUAI Press (2016). [67] Ilievski, I., Akhtar, T., Feng, J., Shoemaker, C.: Efficient Hyperparameter Optimization for Deep Learning Algorithms Using Deterministic RBF Surrogates. In: Sierra, C. (ed.) Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI’17) (2017). [68] Jamieson, K., Recht, B.: The news on auto-tuning (2016), http://www.argmin.net/2016/06/20/ hypertuning/. [69] Jamieson, K., Talwalkar, A.: Non-stochastic best arm identification and hyperparameter optimization. In: Gretton and Robert [47], pp. 240–248. [70] Jenatton, R., Archambeau, C., González, J., Seeger, M.: Bayesian Optimization with Treestructured Dependencies. In: Precup and Teh [122], pp. 1655–1664. [71] John, G.: Cross-Validated C4.5: Using Error Estimation for Automatic Parameter Selection. Tech. Rep. STAN-CS-TN-94-12, Stanford University, Stanford University (1994). [72] Jones, D., Schonlau, M., Welch, W.: Efficient global optimization of expensive black box functions. Journal of Global Optimization 13, 455–492 (1998). [73] Kandasamy, K., Dasarathy, G., Oliva, J., Schneider, J., Póczos, B.: Gaussian Process Bandit Optimisation with Multi-fidelity Evaluations. In: Lee et al. [87], pp. 992–1000. [74] Kandasamy, K., Dasarathy, G., Schneider, J., Póczos, B.: Multi-fidelity Bayesian Optimisation with Continuous Approximations. In: Precup and Teh [122], pp. 1799–1808. [75] Kandasamy, K., Schneider, J., Póczos, B.: High Dimensional Bayesian Optimisation and Bandits via Additive Models. In: Bach and Blei [7], pp. 295–304. [76] Karnin, Z., Koren, T., Somekh, O.: Almost optimal exploration in multi-armed bandits. In: Dasgupta and McAllester [23], pp. 1238–1246. [77] King, R., Feng, C., Sutherland, A.: Statlog: comparison of classification algorithms on large real-world problems. Applied Artificial Intelligence an International Journal 9(3), 289–333 (1995). [78] Klein, A., Falkner, S., Bartels, S., Hennig, P., Hutter, F.: Fast bayesian hyperparameter optimization on large datasets. In: Electronic Journal of Statistics. vol. 11 (2017). [79] Klein, A., Falkner, S.,Mansur, N., Hutter, F.: RoBO: A flexible and robust Bayesian optimization framework in Python. In: NeurIPS workshop on Bayesian Optimization (BayesOpt’17) (2017). [80] Klein, A., Falkner, S., Springenberg, J.T., Hutter, F.: Learning curve prediction with Bayesian neural networks. In: Proceedings of the International Conference on Learning Representations (ICLR’17) (2017), published online: iclr.cc. [81] Koch, P., Konen,W., Flasch, O., Bartz-Beielstein, T.: Optimizing support vector machines for stormwater prediction. Tech. Rep. TR10-2-007, Technische Universit.t Dortmund (2010). [82] Kohavi, R., John, G.: Automatic Parameter Selection by Minimizing Estimated Error. In: Prieditis, A., Russell, S. (eds.) Proceedings of the Twelfth International Conference on Machine Learning, pp. 304–312. Morgan Kaufmann Publishers (1995). [83] Komer, B., Bergstra, J., Eliasmith, C.: Hyperopt-sklearn: Automatic hyperparameter configuration for Scikit-learn. In: Hutter, F., Caruana, R., Bardenet, R., Bilenko, M., Guyon, I., Kégl, B., Larochelle, H. (eds.) ICML workshop on Automated Machine Learning (AutoML workshop 2014) (2014). [84] Konen, W., Koch, P., Flasch, O., Bartz-Beielstein, T., Friese, M., Naujoks, B.: Tuned data mining: a benchmark study on different tuners. In: Krasnogor, N. (ed.) Proceedings of the 13th Annual Conference on Genetic and Evolutionary Computation (GECCO’11). pp. 1995–2002. ACM (2011). [85] Krizhevsky, A., Sutskever, I., Hinton, G.: Imagenet classification with deep convolutional neural networks. In: Bartlett et al. [9], pp. 1097–1105. [86] Krueger, T., Panknin, D., Braun, M.: Fast cross-validation via sequential testing. Journal of Machine Learning Research (2015). [87] Lee, D., Sugiyama, M., von Luxburg, U., Guyon, I., Garnett, R. (eds.): Proceedings of the 30th International Conference on Advances in Neural Information Processing Systems (NeurIPS’16) (2016). [88] Lee, H., Gramacy, R.: Optimization Subject to Hidden Constraints via Statistical Emulation. Pacific Journal of Optimization 7(3), 467–478 (2011). [89] Li, F.F., Li, J.: Cloud AutoML: Making AI accessible to every business (2018), https://www.blog. google/products/google-cloud/cloud-automl-making-ai-accessible-every-business/. [90] Li, L., Jamieson, K., DeSalvo, G., Rostamizadeh, A., Talwalkar, A.: Hyperband: A novel bandit-based approach to hyperparameter optimization. Journal of Machine Learning Research 18(185), 1–52 (2018). [91] Loshchilov, I., Hutter, F.: CMA-ES for hyperparameter optimization of deep neural networks. In: International Conference on Learning Representations Workshop track (2016), published online: iclr.cc. [92] Lu, X., Gonzalez, J., Dai, Z., Lawrence, N.: Structured Variationally Auto-encoded Optimization. In: Dy and Krause [27], pp. 3273–3281. [93] Luketina, J., Berglund, M., Greff, K., Raiko, T.: Scalable Gradient-Based Tuning of Continuous Regularization Hyperparameters. In: Balcan and Weinberger [8], pp. 2952–2960. [94] Luo, G.: A review of automatic selection methods for machine learning algorithms and hyperparameter values. Network Modeling Analysis in Health Informatics and Bioinformatics 5(1) (2016). [95] Lévesque, J.C.: Bayesian Hyperparameter Optimization: Overfitting, Ensembles and Conditional Spaces. Ph.D. thesis, Université Laval (2018). [96] Lévesque, J.C., Durand, A., Gagné, C., Sabourin, R.: Bayesian optimization for conditional hyperparameter spaces. In: Howell, B. (ed.) 2017 International Joint Conference on Neural Networks (IJCNN). pp. 286–293. IEEE (2017). [97] Lévesque, J.C., Gagné, C., Sabourin, R.: Bayesian Hyperparameter Optimization for Ensemble Learning. In: Ihler and Janzing [66], pp. 437–446. [98] MacKay, D.: Hyperparameters: Optimize, or Integrate Out?, pp. 43–59. Springer (1996). [99] Maclaurin, D., Duvenaud, D., Adams, R.: Gradient-based Hyperparameter Optimization through Reversible Learning. In: Bach and Blei [7], pp. 2113–2122. [100] Mantovani, R., Horvath, T., Cerri, R., Vanschoren, J., Carvalho, A.: Hyper-Parameter Tuning of a Decision Tree Induction Algorithm. In: 2016 5th Brazilian Conference on Intelligent Systems (BRACIS). pp. 37–42. IEEE Computer Society Press (2016). [101] Marcel Wever, F.M., Hüllermeier, E.: ML-Plan for unlimited-length machine learning pipelines. In: Garnett, R., Vanschoren, F.H.J., Brazdil, P., Caruana, R., Giraud-Carrier, C., Guyon, I., Kégl, B. (eds.) ICML workshop on Automated Machine Learning (AutoML workshop 2018) (2018). [102] Maron, O., Moore, A.: The racing algorithm: Model selection for lazy learners. Artificial Intelligence Review 11(1–5), 193–225 (1997). [103] McInerney, J.: An Empirical Bayes Approach to Optimizing Machine Learning Algorithms. In: Guyon et al. [48], pp. 2712–2721. [104] McIntire, M., Ratner, D., Ermon, S.: Sparse Gaussian Processes for Bayesian Optimization. In: Ihler and Janzing [66]. [105] Melis, G., Dyer, C., Blunsom, P.: On the state of the art of evaluation in neural language models. In: Proceedings of the International Conference on Learning Representations (ICLR’18) [1], published online: iclr.cc. [106] Mendoza, H., Klein, A., Feurer, M., Springenberg, J., Hutter, F.: Towards automatically-tuned neural networks. In: ICML 2016 AutoML Workshop (2016). [107] Michie, D., Spiegelhalter, D., Taylor, C., Campbell, J. (eds.): Machine Learning, Neural and Statistical Classification. Ellis Horwood (1994). [108] Mohr, F.,Wever, M., H.llermeier, E.:ML-Plan: Automated machine learning via hierarchical planning. Machine Learning 107(8–10), 1495–1515 (2018). [109] Momma, M., Bennett, K.: A Pattern Search Method for Model Selection of Support Vector Regression. In: Proceedings of the 2002 SIAM International Conference on Data Mining, pp. 261–274 (2002). [110] Montgomery, D.: Design and analysis of experiments. John Wiley & Sons, Inc, eighth edn. (2013). [111] Murray, I., Adams, R.: Slice sampling covariance hyperparameters of latent Gaussian models. In: Lafferty, J., Williams, C., Shawe-Taylor, J., Zemel, R., Culotta, A. (eds.) Proceedings of the 24th International Conference on Advances in Neural Information Processing Systems (NeurIPS’10). pp. 1732–1740 (2010). [112] Nguyen, T., Gupta, S., Rana, S., Venkatesh, S.: Stable Bayesian Optimization. In: Kim, J., Shim, K., Cao, L., Lee, J.G., Lin, X., Moon, Y.S. (eds.) Advances in Knowledge Discovery and Data Mining (PAKDD’17). Lecture Notes in Artificial Intelligence, vol. 10235, pp. 578–591 (2017). [113] Nguyen, V., Gupta, S., Rana, S., Li, C., Venkatesh, S.: Filtering Bayesian optimization approach in weakly specified search space. Knowledge and Information Systems (2018). [114] Oh, C., Gavves, E.,Welling, M.: BOCK: Bayesian Optimization with Cylindrical Kernels. In: Dy and Krause [27], pp. 3865–3874. [115] Olson, R., Bartley, N., Urbanowicz, R., Moore, J.: Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science. In: Friedrich, T. (ed.) Proceedings of the Genetic and Evolutionary Computation Conference (GECCO’16). pp. 485–492. ACM(2016). [116] Olson, R., La Cava, W.,Mustahsan, Z., Varik, A., Moore, J.: Data-driven advice for applying machine learning to bioinformatics problems. In: Proceedings of the Pacific Symposium in Biocomputing 2018. pp. 192–203 (2018). [117] Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L., Lerer, A.: Automatic differentiation in PyTorch. In: NeurIPS Autodiff Workshop (2017). [118] Pedregosa, F.: Hyperparameter optimization with approximate gradient. In: Balcan and Weinberger [8], pp. 737–746. [119]. Peng-Wei Chen, Jung-Ying Wang, Hahn-Ming Lee: Model selection of SVMs using GA approach. In: Proceedings of the 2004 IEEE International Joint Conference on Neural Networks (IJCNN). vol. 3, pp. 2035–2040. IEEE Computer Society Press (2004). [120] Petrak, J.: Fast subsampling performance estimates for classification algorithm selection. Technical Report TR-2000-07, Austrian Research Institute for Artificial Intelligence (2000). [121] Poloczek, M., Wang, J., Frazier, P.: Multi-Information Source Optimization. In: Guyon et al. [48], pp. 4288–4298. [122] Precup, D., Teh, Y. (eds.): Proceedings of the 34th International Conference on Machine Learning (ICML’17), vol. 70. Proceedings of Machine Learning Research (2017). [123] Provost, F., Jensen, D., Oates, T.: Efficient progressive sampling. In: Fayyad, U., Chaudhuri, S., Madigan, D. (eds.) The 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’99). pp. 23–32. ACM Press (1999). [124] Rasmussen, C., Williams, C.: Gaussian Processes for Machine Learning. The MIT Press (2006). [125] Rendle, S.: Factorization machines. In: Webb, G., Liu, B., Zhang, C., Gunopulos, D., Wu, X. (eds.) Proceedings of the 10th IEEE International Conference on Data Mining (ICDM’06). pp. 995–1000. IEEE Computer Society Press (2010). [126] Ripley, B.D.: Statistical aspects of neural networks. Networks and chaos—statistical and probabilistic aspects 50, 40–123 (1993). [127] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A., Fei-Fei, L.: Imagenet large scale visual recognition challenge. International Journal of Computer Vision 115(3), 211–252 (2015). [128] Sabharwal, A., Samulowitz, H., Tesauro, G.: Selecting Near-Optimal Learners via Incremental Data Allocation. In: Schuurmans, D., Wellman, M. (eds.) Proceedings of the Thirtieth National Conference on Artificial Intelligence (AAAI’16). AAAI Press (2016). [129] Samanta, B.: Gear fault detection using artificial neural networks and support vector machines with genetic algorithms. Mechanical Systems and Signal Processing 18(3), 625–644 (2004). [130] Sanders, S., Giraud-Carrier, C.: Informing the Use of Hyperparameter Optimization Through Metalearning. In: Gottumukkala, R., Ning, X., Dong, G., Raghavan, V., Aluru, S., Karypis, G., Miele, L., Wu, X. (eds.) 2017 IEEE International Conference on Big Data (Big Data). IEEE Computer Society Press (2017). [131] Schilling, N., Wistuba, M., Drumond, L., Schmidt-Thieme, L.: Hyperparameter optimization with factorized multilayer perceptrons. In: Appice, A., Rodrigues, P., Costa, V., Gama, J., Jorge, A., Soares, C. (eds.) Machine Learning and Knowledge Discovery in Databases (ECML/PKDD’15). Lecture Notes in Computer Science, vol. 9285, pp. 87–103. Springer (2015). [132] Schilling, N., Wistuba, M., Drumond, L., Schmidt-Thieme, L.: Joint Model Choice and Hyperparameter Optimization with Factorized Multilayer Perceptrons. In: 2015 IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI). pp. 72–79. IEEE Computer Society Press (2015). [133] Sculley, D., Snoek, J., Wiltschko, A., Rahimi, A.: Winner’s curse? on pace, progress, and empirical rigor. In: International Conference on Learning Representations Workshop track (2018), published online: iclr.cc. [134] Shah, A., Ghahramani, Z.: Pareto Frontier Learning with Expensive Correlated Objectives. In: Balcan and Weinberger [8], pp. 1919–1927. [135] Shahriari, B., Swersky, K., Wang, Z., Adams, R., de Freitas, N.: Taking the human out of the loop: A review of Bayesian optimization. Proceedings of the IEEE 104(1), 148–175 (2016). [136] Shahriari, B., Bouchard-Cote, A., de Freitas, N.: Unbounded Bayesian optimization via regularization. In: Gretton and Robert [47], pp. 1168–1176. [137] SIGOPT: Improve ML models 100x faster (2018), https://sigopt.com/. [138] Simon, D.: Evolutionary optimization algorithms. John Wiley & Sons (2013). [139] Snoek, J.: Bayesian optimization and semiparametric models with applications to assistive technology. PhD Thesis, University of Toronto (2013). [140] Snoek, J., Larochelle, H., Adams, R.: Practical Bayesian optimization of machine learning algorithms. In: Bartlett et al. [9], pp. 2960–2968. [141] Snoek, J., Rippel, O., Swersky, K., Kiros, R., Satish, N., Sundaram, N., Patwary, M., Prabhat, Adams, R.: Scalable Bayesian optimization using deep neural networks. In: Bach and Blei [7], pp. 2171–2180. [142] Snoek, J., Swersky, K., Zemel, R., Adams, R.: Input warping for Bayesian optimization of non- stationary functions. In: Xing and Jebara [157], pp. 1674–1682. [143] Sparks, E., Talwalkar, A., Haas, D., Franklin, M., Jordan, M., Kraska, T.: Automating model search for large scale machine learning. In: Balazinska, M. (ed.) Proceedings of the Sixth ACM Symposium on Cloud Computing - SoCC ’15. pp. 368–380. ACM Press (2015). [144] Springenberg, J., Klein, A., Falkner, S., Hutter, F.: Bayesian optimization with robust Bayesian neural networks. In: Lee et al. [87]. [145] Sun, Q., Pfahringer, B.,Mayo, M.: Towards a Framework for Designing FullModel Selection and Optimization Systems. In: Multiple Classifier Systems, vol. 7872, pp. 259–270. Springer (2013). [146] Swersky, K., Duvenaud, D., Snoek, J., Hutter, F., Osborne, M.: Raiders of the lost architecture: Kernels for Bayesian optimization in conditional parameter spaces. In: NeurIPS Workshop on Bayesian Optimization in Theory and Practice (BayesOpt’14) (2014). [147] Swersky, K., Snoek, J., Adams, R.: Multi-task Bayesian optimization. In: Burges, C., Bottou, L., Welling, M., Ghahramani, Z., Weinberger, K. (eds.) Proceedings of the 27th International Conference on Advances in Neural Information Processing Systems (NeurIPS’13). pp. 2004–2012 (2013). [148] Swersky, K., Snoek, J., Adams, R.: Freeze-thaw Bayesian optimization arXiv:1406.3896v1 [stats.ML] (2014). [149] Thornton, C., Hutter, F., Hoos, H., Leyton-Brown, K.: Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. In: Dhillon, I., Koren, Y., Ghani, R., Senator, T., Bradley, P., Parekh, R., He, J., Grossman, R., Uthurusamy, R. (eds.) The 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13). pp. 847–855. ACM Press (2013). [150] Wainer, J., Cawley, G.: Empirical Evaluation of Resampling Procedures for Optimising SVM Hyperparameters. Journal of Machine Learning Research 18, 1–35 (2017). [151] Wang, J., Xu, J., Wang, X.: Combination of hyperband and Bayesian optimization for hyperparameter optimization in deep learning. arXiv:1801.01596v1 [cs.CV] (2018). [152] Wang, L., Feng, M., Zhou, B., Xiang, B., Mahadevan, S.: Efficient Hyper-parameter Optimization for NLP Applications. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. pp. 2112–2117. Association for Computational Linguistics (2015). [153] Wang, Z., Hutter, F., Zoghi, M., Matheson, D., de Feitas, N.: Bayesian optimization in a billion dimensions via random embeddings. Journal of Artificial Intelligence Research 55, 361–387 (2016). [154] Wang, Z., Gehring, C., Kohli, P., Jegelka, S.: Batched Large-scale Bayesian Optimization in High- dimensional Spaces. In: Storkey, A., Perez-Cruz, F. (eds.) Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS). vol. 84. Proceedings of Machine Learning Research (2018). [155] Wistuba, M., Schilling, N., Schmidt-Thieme, L.: Automatic Frankensteining: Creating Complex Ensembles Autonomously. In: Proceedings of the 2017 SIAM International Conference on Data Mining (2017). [156] Wolpert, D.: Stacked generalization. Neural Networks 5(2), 241–259 (1992). [157] Xing, E., Jebara, T. (eds.): Proceedings of the 31th International Conference on Machine Learning, (ICML’14). Omnipress (2014). [158] Zabinsky, Z.: Pure Random Search and Pure Adaptive Search. In: Stochastic Adaptive Search for Global Optimization, pp. 25–54. Springer (2003). [159] Zeng, X., Luo, G.: Progressive sampling-based Bayesian optimization for efficient and automatic machine learning model selection. Health Information Science and Systems 5(1) (2017). [160] Zhang, Y., Bahadori, M.T., Su, H., Sun, J.: FLASH: Fast Bayesian Optimization for Data Analytic Pipelines. In: Krishnapuram, B., Shah, M., Smola, A., Aggarwal, C., Shen, D., Rastogi, R. (eds.) Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). pp. 2065–2074. ACM Press (2016).