拟牛顿法

拟牛顿法
1. 构造的具体方法

拟牛顿法

在牛顿法中提到了牛顿法的两个缺陷:

计算黑塞矩阵的求导次数太多
需要计算逆矩阵(复杂度一般为 )

上面两个问题集中体现在在牛顿法的迭代公式中的项上. 为了避免这两个问题而仍采用类似于牛顿法的思想/迭代公式, 显然要将替换成一个不用求逆的其他矩阵, 也即构造矩阵来对进行近似. 我们希望得到一个好的近似, 就要在计算简便的基础上让近似矩阵(序列) 拥有尽可能多的与相似的性质, 这启发我们先分析具有的性质.

首先对于二阶连续可微的函数黑塞矩阵对称, 于是首先要为对称矩阵, 即

其次, 在牛顿法中我们已经知道了使序列收敛的一个必要条件是黑塞矩阵正定(这是使得为下降方向的条件), 于是还要满足正定的条件.

最后, 在共轭梯度法部分, 对于非二次型函数, 为了避免黑塞矩阵的计算, 采用了三种修正, 这些修正都在用梯度来近似黑塞矩阵, 这也启发我们用梯度来近似由梯度得到黑塞矩阵的首选方式是Taylor展开, 于是对在处进行Taylor展开并代入点得

仍记就有

要用来近似就可将满足的上式中的替换为即

这称之为拟牛顿条件. 令就有

这样写在后面的计算中会更简便一些.

此时可以给出拟牛顿法的迭代公式, 即:

构造的具体方法

上面仅仅分析了满足的最基本性质, 而要构造出这样并不是一件容易的事, 在给出构造的具体该方法之前, 先给出构造的一般思路. 思路其实很简单, 就是构造递推公式, , 这里也是一个矩阵, 根据它的性质进行构造即可, 下面采用了矩阵的秩.

秩修正

现在就用上面提到的思想构造于是令首先也为对称矩阵. 为了更容易求出的形式, 我们用到了矩阵的秩, 同时分解矩阵是一个不错的选择.

显然秩为的矩阵对我们没有任何帮助, 那考虑为简单的情况, 即的情况. 秩矩阵常用的处理方法是秩分解(满秩分解), 即总可以写成的形式, 其中又由于是对称阵, 因此对任意有 ,于是线性相关, , 把的系数并入中, 可令这样就得到了秩修正公式: 现在要用所满足的条件确定项注意在真正的迭代过程中是已知条件.

由拟牛顿条件知于是注意到是个标量, 则令再回代入中有也即因此因此需要注意的是我们最终目的是求出所以包括设出的都没有必要求出来.

因此最终的迭代公式为

性质分析

秩修正的可行方向不一定是下降方向.

在正定的条件下, 满足时, 正定.

DFP算法(秩修正)

DFP算法由Davidon1959年提出. 1963年，Fletcher和Powell进行了修改.

秩修正的不一定正定, 这显然不是我们想要的, 现在要来思考怎么修正秩修正来保证的正定性. 先直接给出秩修正.

秩修正中, 现在不妨让但是并不采用满秩分解, 而是借助下面的引理写成两个秩为的矩阵的和.

引理1 秩为的矩阵可以表示为个秩为的矩阵之和，但是不能表示为少于个秩为的矩阵之和.

因此可以得到秩修正公式/DFP算法迭代公式:

现在求出项和思路和秩修正迭代公式求法差不多. 将迭代公式代入拟牛顿条件得到这里面有两个未知的向量, 因此该方程有无穷多组解, 那我们只需要找到一组特解即可. 这特解很容易找, 不妨令同样地, 根据可设分别回代入上述方程组可得于是于是得到DFP算法的迭代公式为

性质分析

若正定, 则 DFP 算法得到的一定也是正定的.

PROOF 对任意有于是定义内积则由Cauchy-Schwartz不等式有因此这就是要证的.

BFGS算法

BFGS 算法有 Broyden, Fletcher, Goldfrab, Shanno 提出, 所以称为 BFGS 算法.

BFGS 算法和 DFP 算法几乎一致, 只不过 DFP 算法沿用秩 1 修正对进行近似, 而 BFGS 是直接对进行近似, 设近似的矩阵为 , 现在也用秩 2 修正, 有采用几乎一致的思路, 可以得到相比 DFP 算法的结果, 实际上就是把和互换位置, 把换成即可. 现在需要求 , 需要用到 Shermann-Morrison-Woodbury 公式:

已知非奇异, 设则需要保证成立.

等于加上两个秩 1 矩阵, 因此计算要应用两次 Shermann-Morrison-Woodbury 公式, 计算十分繁琐, 这里给出最终的公式:

L-BFGS

L-BFGS 又称为限制内存 BFGS 算法, 这里限于篇幅仅介绍其思路, 不给出具体的算法.

计算需要提前将算出来后存起来, 这里需要的内存消耗. 考虑将上述递推公式展开, 这样的计算实际上需要的是向量这个向量, 如果只存向量就只需要的内存, 同时对于大部分情况而言 BFGS 的迭代次数非常少(具有介于牛顿法和梯度下降法之间的收敛率), 所以所需要的内存就会远少于存矩阵的内存.

具体细节的实现会有所不同, 总之就是通过提前展开将存矩阵转化成了存向量, 降低了内存消耗.

参考细节是这篇文章.

2024-04-29 该篇文章被 Baoduo Xu 归为分类: Optimization

以上

拟牛顿法

构造 的具体方法

秩 修正

性质分析

DFP算法(秩 修正)

性质分析

BFGS算法

L-BFGS

构造的具体方法

秩修正

DFP算法(秩修正)