机器学习最优化算法详解
今天再给大家介绍一篇关于机器学习中最优化算法的文章,文章来源于迈微AI研习社 ,作者Charmve
导言
对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,小编将对机器学习中所使用的优化算法做一个全面的总结,并理清它们之间的脉络关系,帮你从全局的高度来理解这一部分知识。
机器学习要求解的数学模型
几乎所有的机器学习算法最后都归结为求一个目标函数的极值,即最优化问题,例如对于有监督学习,我们要找到一个最佳的映射函数f (x),使得对训练样本的损失函数最小化(最小化经验风险或结构风险):

在这里,N为训练样本数,L是对单个样本的损失函数,w是要求解的模型参数,是映射函数的参数,xi为样本的特征向量,yi为样本的标签值。
或是找到一个最优的概率密度函数p(x),使得对训练样本的对数似然函数极大化(最大似然估计):

在这里,θ是要求解的模型参数,是概率密度函数的参数。
对于无监督学习,以聚类算法为例,算法要是的每个类的样本离类中心的距离之和最小化:

在这里k为类型数,x为样本向量,μi为类中心向量,Si为第i个类的样本集合。
对于强化学习,我们要找到一个最优的策略,即状态s到动作a的映射函数(确定性策略,对于非确定性策略,是执行每个动作的概率):

使得任意给定一个状态,执行这个策略函数所确定的动作a之后,得到的累计回报最大化:

这里使用的是状态价值函数。
总体来看,机器学习的核心目标是给出一个模型(一般是映射函数),然后定义对这个模型好坏的评价函数(目标函数),求解目标函数的极大值或者极小值,以确定模型的参数,从而得到我们想要的模型。在这三个关键步骤中,前两个是机器学习要研究的问题,建立数学模型。第三个问题是纯数学问题,即最优化方法,为本文所讲述的核心。
最优化算法的分类
对于形式和特点各异的机器学习算法优化目标函数,我们找到了适合它们的各种求解算法。除了极少数问题可以用暴力搜索来得到最优解之外,我们将机器学习中使用的优化算法分成两种类型(本文不考虑随机优化算法如模拟退火、遗传算法等):
公式求解数值优化前者给出一个最优化问题精确的公式解,也称为解析解,一般是理论结果。后者是在要给出极值点的精确计算公式非常困难的情况下,用数值计算方法近似求解得到最优点。除此之外,还有其他一些求解思想,如分治法,动态规划等。我们在后面单独列出。一个好的优化算法需要满足:
能正确的找到各种情况下的极值点速度快下图给出了这些算法的分类与它们之间的关系:

接下来我们将按照这张图来展开进行讲解。
费马定理
对于一个可导函数,寻找其极值的统一做法是寻找导数为0的点,即费马定理。微积分中的这一定理指出,对于可导函数,在极值点处导数必定为0:

对于多元函数,则是梯度为0:

导数为0的点称为驻点。需要注意的是,导数为0只是函数取得极值的必要条件而不是充分条件,它只是疑似极值点。是不是极值,是极大值还是极小值,还需要看更高阶导数。对于一元函数,假设x是驻点:
如果f''(x)>0,则在该点处去极小值如果f''(x)<0,则在该点处去极大值如果f''(x)>=0,还要看更高阶导数对于多元函数,假设x是驻点:
如果Hessian矩阵正定,函数在该点有极小值如果Hessian矩阵负定,函数在该点有极大值如果Hessian矩阵不定,还需要看更(此处误)在导数为0的点处,函数可能不取极值,这称为鞍点,下图是鞍点的一个例子(来自SIGAI云端实验室):

除鞍点外,最优化算法可能还会遇到另外一个问题:局部极值问题,即一个驻点是极值点,但不是全局极值。如果我们对最优化问题加以限定,可以有效的避免这两种问题。典型的是凸优化,它要求优化变量的可行域是凸集,目标函数是凸函数。
虽然驻点只是函数取得极值的必要条件而不是充分条件,但如果我们找到了驻点,再判断和筛选它们是不是极值点,比之前要容易多了。无论是理论结果,还是数值优化算法,一般都以找驻点作为找极值点的目标。对于一元函数,先求导数,然后解导数为0的方程即可找到所有驻点。对于多元函数,对各个自变量求偏导数,令它们为0,解方程组,即可达到所有驻点。这都是微积分中所讲授的基础方法。幸运的是,在机器学习中,很多目标函数都是可导的,因此我们可以使用这套方法。
拉格朗日乘数法
费马定理给出的不带约束条件下的函数极值的必要条件。对于一些实际应用问题,一般还带有等式或者不等式约束条件。对于带等式约束的极值问题,经典的解决方案是拉格朗日乘数法。
对于如下问题:

构造拉格朗日乘子函数:

在最优点处对x和乘子变量λi的导数都必须为0:

解这个方程即可得到最优解。对拉格朗日乘数法更详细的讲解可以阅读任何一本高等数学教材。机器学习中用到拉格朗日乘数法的地方有:
主成分分析线性判别分析流形学习中的拉普拉斯特征映射隐马尔可夫模型KKT条件
KKT条件是拉格朗日乘数法的推广,用于求解既带有等式约束,又带有不等式约束的函数极值。对于如下优化问题:

和拉格朗日对偶的做法类似,KKT条件构如下乘子函数:

λ和μ称为KKT乘子。在最优解处x*应该满足如下条件:

等式约束hj (x*)=0和不等式约束gk (x*)<=0是本身应该满足的约束,▽xL(x*)=0和之前的拉格朗日乘数法一样。唯一多了关于gi (x)的条件:

KKT条件只是取得极值的必要条件而不是充分条件。在机器学习中用到KKT条件的地方有:
支持向量机(SVM)数值优化算法
前面讲述的三种方法在理论推导、某些可以得到方程组的求根公式的情况(如线性函数,正态分布的最大似然估计)中可以使用,但对绝大多数函数来说,梯度等于0的方程组是没法直接解出来的,如方程里面含有指数函数、对数函数之类的超越函数。对于这种无法直接求解的方程组,我们只能采用近似的算法来求解,即数值优化算法。这些数值优化算法一般都利用了目标函数的导数信息,如一阶导数和二阶导数。如果采用一阶导数,则称为一阶优化算法。如果使用了二阶导数,则称为二阶优化算法。
工程上实现时通常采用的是迭代法,它从一个初始点x0开始,反复使用某种规则从xk移动到下一个点xk+1,构造这样一个数列,直到收敛到梯度为0的点处。即有下面的极限成立:

这些规则一般会利用一阶导数信息即梯度;或者二阶导数信息即Hessian矩阵。这样迭代法的核心是得到这样的由上一个点确定下一个点的迭代公式:

梯度下降法
梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式为:

根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的xk+1位于迭代之前的值xk的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。
梯度下降法及其变种在机器学习中应用广泛,尤其是在深度学习中。
动量项
为了加快梯度下降法的收敛速度,减少震荡,引入了动量项。动量项累积了之前迭代时的梯度值,加上此项之后的参数更新公式为:

其中Vt+1是动量项,它取代了之前的梯度项。动量项的计算公式为:

它是上一时刻的动量项与本次梯度值的加权平均值,其中α是学习率,μ是动量项系数。如果按照时间t进行展开,则第t次迭代时使用了从1到t次迭代时的所有梯度值,且老的梯度值安μt的系数指数级衰减:

动量项累积了之前迭代时的梯度值,使得本次迭代时沿着之前的惯性方向向前走。
AdaGrad算法
AdaGrad算法是梯度下降法最直接的改进。梯度下降法依赖于人工设定的学习率,如果设置过小,收敛太慢,而如果设置太大,可能导致算法那不收敛,为这个学习率设置一个合适的值非常困难。
AdaGrad算法根据前几轮迭代时的历史梯度值动态调整学习率,且优化变量向量X的每一个分量xi都有自己的学习率。参数更新公式为:

其中α是学习因子,gt是第t次迭代时参数的梯度向量,ε是一个很小的正数,为了避免除0操作,下标i表示向量的分量。和标准梯度下降法唯一不同的是多了分母中的这一项,它累积了到本次迭代为止梯度的历史值信息用于生成梯度下降的系数值。根据上式,历史导数值的绝对值越大分量学习率越小,反之越大。虽然实现了自适应学习率,但这种算法还是存在问题:需要人工设置一个全局的学习率α,随着时间的累积,上式中的分母会越来越大,导致学习率趋向于0,参数无法有效更新。
RMSProp算法
RMSProp算法是对AdaGrad的改进,避免了长期累积梯度值所导致的学习率趋向于0的问题。具体做法是由梯度值构造一个向量RMS,初始化为0,按照衰减系数累积了历史的梯度平方值。更新公式为:

AdaGrad直接累加所有历史梯度的平方和,而这里将历史梯度平方值按照δt衰减之后再累加。参数更新公式为:

其中δ是人工设定的参数,与AdaGrad一样,这里也需要人工指定的全局学习率α。
AdaDelta算法
AdaDelta算法也是对AdaGrad的改进,避免了长期累积梯度值所导致的学习率趋向于0的问题,另外,还去掉了对人工设置的全局学习率的依赖。假设要优化的参数为x,梯度下降法第t次迭代时计算出来的参数梯度值为gt。算法首先初始化如下两个向量为0向量:

其中E[g2]是梯度平方(对每个分量分别平分)的累计值,更新公式为:

在这里g2是向量每个元素分别计算平方,后面所有的计算公式都是对向量的每个分量进行。接下来计算如下RMS量:

这也是一个向量,计算时分别对向量的每个分量进行。然后计算参数的更新值:

RMS[Δx]t-1的计算公式和这个类似。这个更新值同样通过梯度来构造,只不过学习率是通过梯度的历史值确定的。更新公式为:

参数更新的迭代公式为:

Adam算法
Adam算法整合了自适应学习率与动量项。算法用梯度构造了两个向量m和v,前者为动量项,后者累积了梯度的平方和,用于构造自适应学习率。它们的初始值为0,更新公式为:

其中β1,β2是人工指定的参数,i为向量的分量下标。依靠这两个值构造参数的更新值,参数的更新公式为:

在这里,m类似于动量项,用v来构造学习率。
随机梯度下降法
假设训练样本集有N个样本,有监督学习算法训练时优化的目标是这个数据集上的平均损失函数:

其中L(w,xi,yi )是对单个训练样本(xi,yi )的损失函数,w是需要学习的参数,r(w)是正则化项,λ是正则化项的权重。在训练样本数很大时,如果训练时每次迭代都用所有样本,计算成本太高,作为改进可以在每次迭代时选取一批样本,将损失函数定义在这些样本上。
批量随机梯度下降法在每次迭代中使用上面目标函数的随机逼近值,即只使用M《N个随机选择的样本来近似计算损失函数。在每次迭代时要优化的目标函数变为:

随机梯度下降法在概率意义下收敛。
牛顿法
牛顿法是二阶优化技术,利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为:

其中H为Hessian矩阵,g为梯度向量。牛顿法不能保证每次迭代时函数值下降,也不能保证收敛到极小值点。在实现时,也需要设置学习率,原因和梯度下降法相同,是为了能够忽略泰勒展开中的高阶项。学习率的设置通常采用直线搜索(line search)技术。
在实现时,一般不直接求Hessian矩阵的逆矩阵,而是求解下面的线性方程组:

其解d称为牛顿方向。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。
牛顿法比梯度下降法有更快的收敛速度,但每次迭代时需要计算Hessian矩阵,并求解一个线性方程组,运算量大。另外,如果Hessian矩阵不可逆,则这种方法失效。
牛顿法在logistic回归,AdaBoost算法等机器学习算法中有实际应用。
拟牛顿法
牛顿法在每次迭代时需要计算出Hessian矩阵,并且求解一个以该矩阵为系数矩阵的线性方程组,Hessian矩阵可能不可逆。为此提出了一些改进的方法,典型的代表是拟牛顿法。拟牛顿法的思路是不计算目标函数的Hessian矩阵然后求逆矩阵,而是通过其他手段得到一个近似Hessian矩阵逆的矩阵。具体做法是构造一个近似Hessian矩阵或其逆矩阵的正定对称矩阵,用该矩阵进行牛顿法的迭代。
所有这些主要的数值优化算法都可以在SIGAI云端实验室上免费完成实验:
www.sigai.cn
通过构造目标函数,指定优化算法的参数与初始化迭代值,可以可视化的显示出算法的运行过程,并对不同参数时的求解结果进行比较。

可信域牛顿法
标准牛顿法可能不会收敛到一个最优解,也不能保证函数值会按照迭代序列递减。解决这个问题可以通过调整牛顿方向的步长来实现,目前常用的方法有两种:直线搜索和可信区域法。可信域牛顿法是截断牛顿法的一个变种,用于求解带界限约束的最优化问题。在可信域牛顿法的每一步迭代中,有一个迭代序列xk,一个可信域的大小Δk,以及一个二次目标函数:

这个式子可以通过泰勒展开得到,忽略二次以上的项,这是对函数下降值:

的近似。算法寻找一个sk,在满足约束条件||S||<=Δk下近似最小化qk(S)。接下来检查如下比值以更新wk和Δk:

这是函数值的实际减少量和二次近似模型预测方向导致的函数减少量的比值。根据之前的计算结果,再动态调整可信域的大小。
可信域牛顿法在logistic回归,线性支持向量的求解时有实际的应用,具体可以阅读liblinear开源库。
分治法
分治法是一种算法设计思想,它将一个大的问题分解成子问题进行求解。根据子问题解构造出整个问题的解。在最优化方法中,具体做法是每次迭代时只调整优化向量的一部分分量,其他的分量固定住不动。
坐标下降法
坐标下降法的基本思想是每次对一个变量进行优化,这是一种分治法。假设要求解的优化问题为;

坐标下降法求解流程为每次选择一个分量xi进行优化,将其他分量固定住不动,这样将一个多元函数的极值问题转换为一元函数的极值问题。如果要求解的问题规模很大,这种做法能有效的加快速度。
坐标下降法在logistic回归,线性支持向量的求解时有实际的应用,具体可以阅读liblinear开源库。
SMO算法
SMO算法也是一种分治法,用于求解支持向量机的对偶问题。加上松弛变量和核函数后的对偶问题为:

SMO算法的核心思想是每次在优化变量中挑出两个分量αi 和 αj进行优化,让其他分量固定,这样能保证满足等式约束条件。之所以要选择两个变量进行优化而不是选择一个变量,是因为这里有等式约束,如果只调整一个变量的值,将会破坏等式约束。
假设选取的两个分量为αi 和 αj,其他分量都固定即当成常数。对这两个变量的目标函数是一个二元二次函数。这个问题还带有等式和不等式约束条件。对这个子问题可以直接求得公式解,就是某一区间内的一元二次函数的极值。
分阶段优化
分阶段优化的做法是在每次迭代时,先固定住优化变量X一部分分量a不动,对另外一部分变量b进行优化;然后再固定住b不动,对b进行优化。如此反复,直至收敛到最优解处。
AdaBoost算法是这种方法的典型代表。AdaBoost算法在训练时采用了指数损失函数:

由于强分类器是多个弱分类器的加权和,代入上面的损失函数中,得到算法训练时要优化的目标函数为:

这里将指数损伤函数拆成了两部分,已有的强分类器Fj−1,以及当前弱分类器f对训练样本的损失函数,前者在之前的迭代中已经求出,因此可以看成常数。这样目标函数可以简化为:

其中:

这个问题可以分两步求解,首先将弱分类器权重β看成常数,得到最优的弱分类器f。得到弱分类器之后,再优化它的权重系数β。
动态规划算法
动态规划也是一种求解思想,它将一个问题分解成子问题求解,如果整个问题的某个解是最优的,则这个解的任意一部分也是子问题的最优解。这样通过求解子问题,得到最优解,逐步扩展,最后得到整个问题的最优解。
隐马尔可夫模型的解码算法(维特比算法),强化学习中的动态规划算法是这类方法的典型代表,此类算法一般是离散变量的优化,而且是组合优化问题。前面讲述的基于导数的优化算法都无法使用。动态规划算法能高效的求解此类问题,其基础是贝尔曼最优化原理。一旦写成了递归形式的最优化方程,就可以构造算法进行求解。
大家都在看
-
“龙虾”接管电脑的5分钟里,他的电脑被陌生人连了139次 “保护环境。”当你给AI发送这样一条极度简单、语义模糊的指令后,你期待它给你怎样的回应?解释环保的概念?给出保护环境的建议?慷慨激昂地发表一番绿色地球宣言?如果它没做这些,反而是悄无声息地删掉你一部分文 ... 机械之最03-13
-
第51届日内瓦国际发明展开幕 中国参展规模创新高 3月11日,在瑞士日内瓦举行的第51届日内瓦国际发明展上,人们在中国展位参观。新华社记者 王露 摄新华社日内瓦3月11日电(记者王露 马汝轩)第51届日内瓦国际发明展11日在瑞士日内瓦开幕,来自35个国家和地区的1000 ... 机械之最03-13
-
云深处科技的机器马有何特别之处 云深处科技的机器马“云驹”最特别之处,在于它成功地将传统文化符号、稳健的运动性能与前沿的具身智能技术融为一体,成为一匹能走进现实生活的“未来之马”。在AWE 2026展会上,这款马年限定产品凭借其独特魅力,瞬 ... 机械之最03-13
-
来时的路(一):第一机械工业部,那个管得最宽的“一机部” 朋友们好,从今天开始,我想跟你聊聊新中国工业史上那八个带着数字番号的“机械工业部”。这段历史有点长,有点复杂,但特别值得咱们坐下来好好唠唠。咱们先从一个故事开始。一、缘起:1952年,一机部开张了1952年8 ... 机械之最03-13
-
火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录 在粤东莲花山脉深处,龙江水蜿蜒而过的五经富古镇,一项沉睡三十二年的民俗盛典,在丙午马年元宵之夜再度燃亮夜空。竹为骨、纸为肤、火为魂,三条近四十米长的烟花火龙穿云破雾,在漫天焰火中腾挪起舞,将三百年的客 ... 机械之最03-12
-
商鞅变法,最狠的改革,把弱秦变成战争机器 中国历史上,商鞅变法无疑是一次深刻而彻底的社会变革。它不仅改造了战国时期的秦国,使之迅速崛起为一支强大的军事力量,更为后来秦统一六国、建立中国第一个大一统帝国奠定了坚实基础。商鞅变法以其激进的改革措施 ... 机械之最03-12
-
P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英” 在世界轻武器史上,没有任何一把手枪能像鲁格P08那样,将精密钟表般的机械美感与武器的杀戮本能融合得如此天衣无缝。而在这座美学巅峰之上,还伫立着一个更为罕见、更具传奇色彩的异类——P08炮兵型(LP08)。它用一 ... 机械之最03-12
-
对比多家裁断机供应商,最终还是选智成!原因很实在 很多企业采购裁断机时,都会货比三家,对比品牌、价格、品质、服务,最终却纷纷选择智成机械,背后的原因简单又实在——综合实力碾压同行,性价比拉满,服务更贴心。与其他供应商相比,智成机械有三大核心优势,让企 ... 机械之最03-12
-
别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高 网上关于 “机械专业劝退” 的声音,几乎每年高考志愿季都要刷屏一次。“又脏又累”“工资微薄”“夕阳产业”,这些标签像紧箍咒一样,让无数想学机械的考生望而却步,连不少在校生都开始焦虑转专业。但作为深耕机械 ... 机械之最03-11
-
“封龙”何以变“飞龙”——石家庄五大产业跃升记 封龙山,又名飞龙山,横亘在河北省石家庄市区西南,从汉代起即为当地教育中心。而今,封龙山下,一批现代化的企业成为带动当地经济、社会发展的龙头。“十四五”时期,石家庄市努力创新改革,以延链补链强链,打破低 ... 机械之最03-11
相关文章
- 【史海回眸】泰缅“死亡铁路”,日军暴行铁证
- 第51届日内瓦国际发明展开幕 中国参展规模创新高
- 云深处科技的机器马有何特别之处
- 来时的路(一):第一机械工业部,那个管得最宽的“一机部”
- 独家!探秘创下五大“世界之最”的中国深海“蛟龙”
- 火骨纸魂、跃夜成光,五经富烟花火龙非遗重生全记录
- 世界肾脏日
- 商鞅变法,最狠的改革,把弱秦变成战争机器
- 向新求质 三明工业稳健前行
- P08炮兵型 当优雅鲁格遇上长枪管 它是手枪界的“狙击精英”
- 对比多家裁断机供应商,最终还是选智成!原因很实在
- Nikon FM2:机械之心,永恒之魂
- 经常挖鼻孔,后来都怎么样了?有这种情况的人真的要注意了
- 别再盲目劝退机械!大学生选对这几个方向,越老越吃香薪资节节高
- “封龙”何以变“飞龙”——石家庄五大产业跃升记
- “6G网要来了”热搜第一!研发进入关键期,还要破解哪些难题
- “养龙虾”爆火之后,别把技术幻想当成生产力现实
- 阿基米德:喊“我找到了”古希腊狂人,杠杆和浮力都是他发明的!
- 小变化中的大图景——六位全国人大代表履职中的“微光”与“星河”
- 刀尖角:车刀里的 “隐形强者”,决定刀具寿命的关键密码
热门阅读
-
天下第一暗器暴雨梨花针,传说中的唐门暗器做出来了 07-13
-
汽车投诉排行榜前十名汽车 问题最多的就是这些车 07-13
-
世界上最牛挖掘机,甚至可以挖穿一座城市 11-05
-
世界最大核潜艇制造厂,产量远超中美法 11-20
