多元函数相关概念
水平集
曲面 的水平集为
不同的水平集不相交;
水平集稠密的地方目标函数函数变化较快, 稀疏的地方变化较慢.
在极值点附近, 水平集会呈现为同心椭圆集.
梯度、雅可比矩阵与黑塞矩阵
多维实值函数: 对向量求导
若
且在定义域内一阶可微, 我们可以求出来 上面的 可以看作一个形式上的记号, 表示
对这些变量求偏导,
最后得到的是一个行向量 . 同时定义 的梯度
多元实值函数的梯度是一个列向量 , 是一个 的函数.
查到的一些资料给出的规则是对列/行向量求导得到的是列/行向量,
与上面的描述不知为何有些矛盾.
就像一元函数在给出导函数的定义后推出一些常用的导数公式那样,
对于高维实值函数也有类似的公式(下面默认 为变量而 为常量):
于是在处理的时候
往往是实对称矩阵, 也就有 成立.
有时候也会称函数
为一般的二次型函数.
二次型函数性质
给定对称矩阵 若 都有 成立,
则称 是一个正定矩阵;
若仅有 成立则称
为半正定矩阵. 类似也可定义负定矩阵与半负定矩阵.
定理1 (Sylvester 定理) 对称矩阵 为正定矩阵当且仅当 的顺序主子式是正定的.
定理2 对称矩阵 是正定/半正定当且仅当 的所有特征值都是正/非负的.
梯度矩阵与雅可比矩阵
我们现在给出函数 对向量 求导的公式. 是一个列向量: 对
求导相当于每一个分量
对 求导, 而每一个
又是一个行向量, 于是 这是所谓的导数矩阵 ,
又称为雅可比矩阵(Jacobian), 记作 或者
它是 矩阵.
同样定义梯度矩阵 梯度矩阵是
矩阵.
因此对于实值函数 ,
它的雅可比矩阵
是一个行向量.
黑塞矩阵
对于实值函数 若梯度 可微, 则称 二阶可微, 的导数记为 矩阵 被称为
(在点
处)的黑塞矩阵(Hessian). 本文中也会用 表示黑塞矩阵.
若 是二阶连续可微的, 则 的黑塞矩阵是对称的.
一个实例:
在定义域内二阶可微,
求
SOL 这个函数是以后经常碰到的函数,
直接用链式法则即可:
Taylor展开
Theorem (Taylor) Suppose from to is a function on an open ball centered
at . Then for in the ball, where for some constant
. The remainder goes to zero
faster than in the
sense that
当然常用的Taylor展开只需要展开到一阶或二阶即可.
若函数 在开集
上一阶/二阶连续可微, 且 则
一阶: 二阶:
这里不是数学笔记就不补充证明过程了.
集合约束优化
集合约束优化是形如 的优化问题, 其中 由于最小值会在极小值点取到,
先给出两类极小点的定义.
定义1 对于
定义域中的一个点
若存在
的一个去心邻域 使得 不等式
都成立, 则称 是
在
中的一个局部极小点 . 若 不等式
都成立, 则称 是
在
中的一个全局极小点 .
若将 改成
则得到的是严格 局部极小点和严格 全局极小点的定义.
根据极小点的定义, 对于优化问题
可以给出局部最优解 与全局最优解 的定义,
即
中的局部极小点为该优化问题的局部最优解,
全局极小点为该优化问题的全局最优解.
可行方向
定义2 对于 和 若存在一个实数 使得 都有
则称 为 处的可行方向.
显然若 在 的内部, 任意一个方向都是可行方向;
若 处于边缘,
则肯定某个范围内的方向是不可行的. 为什么我们要关注可行方向?
在约束集边缘和在约束集内部时能使用的信息是不一样的
方向导数
在可行方向定义的基础下,我们给出方向导数的定义。
设
可微函数 在 处沿 的方向导数为
方向导数描述了函数
在 处沿 方向变化的快慢,
我们自然关注函数在何方向变化得最快, 也即 满足什么条件
最大. 由Cauchy-Schwartz不等式有 当且仅当 和 在一个方向时取等,
也即在某点沿梯度方向函数
拥有最大的增长率, 同理
在某点的负梯度方向减小得最快.
这部分实际上是对微积分中多元变量微积分的推广,
因为大部分工科的教材在介绍黑塞矩阵时只给出了二元函数的情形.
下面我们给出某一点是多元函数的极小值点的一些必要条件与充分条件.
虽然我们更关注的是在约束集 内部的极小点,
但是难免会碰到在边界取得极小值的函数, 所以我们需要都考虑进去.
一阶必要条件
定理3 (一阶必要条件) 设 在开集 上连续可微, 若 是函数 在 上的局部极小点, 则对 的任意可行方向 都有
PROOF 对任意 有 成立, 由Taylor展开有 取 便有
也即
需要注意的是定理3中
并不一定是在约束集内部, 所以我们不能断定
推论1 设 在开集 上连续可微, 若 是函数 在 上的局部极小值点且为内点 ,
则有 成立.
PROOF 由于 为内点,
可行方向可以任取, 于是取
和 就有
这就表明了 而 是任意的, 那么有
成立.
值得注意的是 的点 被称作为驻点,
并不一定是极值点, 比如马鞍面(双曲抛物面)的鞍点.
二阶必要条件
这里和前面一样要注意局部极小点可能在边界处.
定理4 (二阶必要条件) 设 在约束集
上二阶连续可微, 若 是函数 在 上的局部极小值点, 且对某个可行方向
有 那么就有 成立.
PROOF 由 可得 由于 是极小点, 于是当正数
充分小时一定有 于是对
进行Taylor展开, 有 化简有 于是 取 即得结论.
推论2 设 在约束集
上二阶连续可微, 若 是函数 在 上的局部极小值点且为内点 ,
则对任意可行方向 都有
成立, 即黑塞矩阵半正定.
证明推论只需要用到一阶必要条件和二阶必要条件即可.
充分条件
引理1 (瑞利不等式) 设
是实对称矩阵, 则
定理5 设 在 上二阶连续可微, 是约束集的一个内点, 若 且在 处的黑塞矩阵 正定, 则 为 的一个严格局部极小点.
PROOF 对任意的且范数充分小的可行方向 , 对 进行Taylor展开有 由于 正定,
故由瑞利不等式有 且在 充分小时, 有 这表明了 这也就意味着对任意可行方向 都有
这也就表明了
为严格局部极小点.
补充: 对矩阵求导
设 且
定义 常见的
是矩阵的迹(trace), 即 下面是一些公式:
1: 2:
3:
令 则 如果 为对称阵则
4:
5:
直接根据定义证即可.
6:
也就是
为 的伴随矩阵. 根据行列式展开定义证明即可,
即沿 展开后 的系数为 的代数余子式 于是
1, 2, 3和对向量求导的结果是一致的.
实值函数对矩阵的高阶导数需要借助张量表示.