References
- Lecture Reference: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/
1. Newton’s Method Interpretation
1.1 Introduction
在一阶的 GD 方法中, 其核心思想是在当前点 处, 考虑附近 处的一阶泰勒展开:
-
该近似成立可以由凸性+Lipschitz 连续性得到:
- 由凸性可知, 对于任意 , 有:
- 由 Lipschitz 连续性可知, 对于任意 , 有:
-
若尝试通过寻找 使得 RHS 最小 , 则有:
因此, 进一步我们可以通过二阶泰勒展开来得到更精确的近似:
- 用同样的方法对 RHS 进行最小化, 则有:
因此, 我们可以得到 Newton 方法的更新规则:
1.2 Affine Invariance of Newton’s Method
Newton’s Method 具有 Affine Invariance 性质.
Proof of affine invariance
对于目标函数 , 以及可逆矩阵 , 考虑迭代 .
若对其进行 Affine Transformation , 则 Newton’s Method 更新规则为:
则有:
另一方面, 考虑 , 则有:
1.3 Newton Decrement
对于目标函数 及当前点 , Newton Decrement 定义为:
这个量可以有一下几个理解的角度:
-
首先, 其刻画了更新量经过 Hessian 矩阵校正后的长度. 若记 , 则有:
- 其中 表示在 -范数下的长度, 即 .
-
其次, 其衡量了在当前点处距离二阶泰勒展开的最优解之间的距离. 即:
- 对于牛顿法, 其在最优点附近处, 可以近似代替作为当前点距离最优解的距离.
-
此外指出, Newton Decrement 也是 Affine Invariance 的.
1.4 Damped Newton’s Method (Backtracking Line Search)
在 pure Newton’s Method 中,Newton 方向为 . Damped Newton’s Method 用 Backtracking Line Search 选择步长 .
Armijo Condition.
对给定 ,接受该步长当且仅当
其中 ,.
Note: Armijo descent condition
若 正定,则 ,因此右侧是对 的“下降”要求.
Algorithm.
- 选初始步长 以及超参数 、.
- 在第 次外层迭代:
- 计算 Newton 方向:.
- 令 .
- 重复(线搜索回溯)直到 Armijo 条件成立:
- 若 ,则令 ;
- 否则接受该步长并停止回溯。
- 更新:.
2. Convergence Analysis
2.1 Pure Newton’s Method
假设 是二阶连续可微的函数 (), 且假设其 Hessian 矩阵在最优解 的一个 -邻域内是 Lipschitz 连续的, 即存在常数 使得对于任意 都有:
如果函数 在 处满足 且 , 则对于上述 pure Newton’s Method 有如下系列结论:
-
如果初始点距离 的足够近, 则牛顿法产生的迭代点列会收敛到 .
-
的收敛速度为 Q-quadratic 的.
- .
- 换言之, 若初始点 满足 , 则可保证点列一直处于 内, 从而保证点列收敛到 . 其中 是一个局部邻域半径保证在 附近其 Hessian 具有连续, 非退化等性质.
-
以 Q-quadratic 的速率收敛到零. 具体地:
由此可见, Newton’s Method 的收敛速度非常快, 其收敛速度为 Q-quadratic 的. 但其同时也有代价:
- 初始点必须足够接近最优解, 牛顿法只具有局部收敛性.
- Hessian 需要为正定矩阵. 若是其是奇异的非正定, 则收敛速度可能只有 Q-linear 的.
- 尽管条件数不会直接影响收敛速度, 但对于病态问题, 牛顿法的收敛域可能会变小, 故对初值的选取有了更大的要求.
2.2 Damped Newton’s Method with Strong Convexity
假设 是 -强凸函数, 是 -Lipschitz 连续的, 是 -Lipschitz 连续的, 则对于上述 damped Newton’s Method 会有如下 2-stage 的收敛结构:
-
第一阶段 (Damped Phase): 当 远离最优解时, 为线性收敛速率:
-
第二阶段 (Pure Newton Phase): 当 接近最优解时, 有二次收敛速率:
正是由于前面的强凸性, 全局 Lipschitz 连续以及 Armijo Condition 的共同作用, 使得在远离最优解时保证算法依然不会发散, 函数值保证下降, 梯度范数保证下降.
Note: 回顾 -强凸性
Definition (Strong Convexity). 称 是 -强凸函数, 若存在常数 使得对于任意 都有:
其中 称为强凸常数.
Definition (Lipschitz Continuity). 称 是 -Lipschitz 连续的, 若存在常数 使得对于任意 都有:
其具有如下性质:
若 , 则 . 这说明曲率的下界被 所控制, 不会退化, 所有的特征值均大于 .
函数值的变化率被 控制: .
梯度变化被 控制: .
梯度变化是强单调的: .
在强凸+Lipschitz 连续的假设下, 如下三者在常数意义下等价: .
2.3 Convergence under Self-concordance
Definition (Self-concordance). 以一元函数为例. 称 是 -self-concordant 的, 若存在常数 使得对于任意 都有:
- 默认 . 对于其他的取值, 事实上也可以通过缩放 来得到.
若目标函数 是 self-concordant 的, 则不需要上述强凸+光滑的假设, 亦能保证上述的线性+二次的收敛结构.
3. Discussion
3.1 Comparison with First-order Methods
| Method | Gradient Descent | Newton’s Method |
|---|---|---|
| 内存复杂度 | ||
| 计算复杂度 | (对于 Dense 的 Hessian 矩阵) | |
| Backtracking 成本 | ||
| 条件数影响 | 敏感 | 局部不敏感 |
| 稳健性 | 强 | 弱, 受到数值稳定性, 奇异性等问题的影响 |
3.2 Sparse, Structured Problems
Hessian 的求解是 Newton’s Method 的瓶颈. 对于一些结构化问题, 例如: sparse, banned (只有主对角线附近有非零元素), 块对角, Toeplitz / Kronecker 结构, Low-rank 等, 可以利用其结构特性来加速 Hessian 的求解.
3.3 Equality Constrained Newton’s Method
对于等式约束优化问题:
一个比较直观的思路是在 的切线空间中进行优化. 记优化的更新方向为 , 即 . 则我们只需保证 即可保证 .
还原到 Newton 法最开始推导的二阶展开表达式, 我们的最小化任务为:
对应 Lagrangian 形式为:
Stationarity Condition 为:
由此, 在计算出 后, 更新: