References

1. Newton’s Method Interpretation

1.1 Introduction

在一阶的 GD 方法中, 其核心思想是在当前点 处, 考虑附近 处的一阶泰勒展开:

  • 该近似成立可以由凸性+Lipschitz 连续性得到:

    • 由凸性可知, 对于任意 , 有:
    • 由 Lipschitz 连续性可知, 对于任意 , 有:
  • 若尝试通过寻找 使得 RHS 最小 , 则有:

因此, 进一步我们可以通过二阶泰勒展开来得到更精确的近似:

  • 用同样的方法对 RHS 进行最小化, 则有:

因此, 我们可以得到 Newton 方法的更新规则:

1.2 Affine Invariance of Newton’s Method

Newton’s Method 具有 Affine Invariance 性质.

Proof of affine invariance

  • 对于目标函数 , 以及可逆矩阵 , 考虑迭代 .

  • 若对其进行 Affine Transformation , 则 Newton’s Method 更新规则为:

  • 则有:

  • 另一方面, 考虑 , 则有:

1.3 Newton Decrement

对于目标函数 及当前点 , Newton Decrement 定义为:

这个量可以有一下几个理解的角度:

  • 首先, 其刻画了更新量经过 Hessian 矩阵校正后的长度. 若记 , 则有:

    • 其中 表示在 -范数下的长度, 即 .
  • 其次, 其衡量了在当前点处距离二阶泰勒展开的最优解之间的距离. 即:

    • 对于牛顿法, 其在最优点附近处, 可以近似代替作为当前点距离最优解的距离.
  • 此外指出, Newton Decrement 也是 Affine Invariance 的.

在 pure Newton’s Method 中,Newton 方向为 . Damped Newton’s Method 用 Backtracking Line Search 选择步长 .

Armijo Condition.

对给定 ,接受该步长当且仅当

其中 .

Note: Armijo descent condition

正定,则 ,因此右侧是对 的“下降”要求.

Algorithm.

  • 选初始步长 以及超参数 .
  • 在第 次外层迭代:
    • 计算 Newton 方向:.
    • .
    • 重复(线搜索回溯)直到 Armijo 条件成立:
      • ,则令
      • 否则接受该步长并停止回溯。
    • 更新:.

2. Convergence Analysis

2.1 Pure Newton’s Method

假设 是二阶连续可微的函数 (), 且假设其 Hessian 矩阵在最优解 的一个 -邻域内是 Lipschitz 连续的, 即存在常数 使得对于任意 都有:

如果函数 处满足 , 则对于上述 pure Newton’s Method 有如下系列结论:

  1. 如果初始点距离 的足够近, 则牛顿法产生的迭代点列会收敛到 .

  2. 的收敛速度为 Q-quadratic 的.

    • .
    • 换言之, 若初始点 满足 , 则可保证点列一直处于 内, 从而保证点列收敛到 . 其中 是一个局部邻域半径保证在 附近其 Hessian 具有连续, 非退化等性质.
  3. 以 Q-quadratic 的速率收敛到零. 具体地:

由此可见, Newton’s Method 的收敛速度非常快, 其收敛速度为 Q-quadratic 的. 但其同时也有代价:

  • 初始点必须足够接近最优解, 牛顿法只具有局部收敛性.
  • Hessian 需要为正定矩阵. 若是其是奇异的非正定, 则收敛速度可能只有 Q-linear 的.
  • 尽管条件数不会直接影响收敛速度, 但对于病态问题, 牛顿法的收敛域可能会变小, 故对初值的选取有了更大的要求.

2.2 Damped Newton’s Method with Strong Convexity

假设 -强凸函数, -Lipschitz 连续的, -Lipschitz 连续的, 则对于上述 damped Newton’s Method 会有如下 2-stage 的收敛结构:

  • 第一阶段 (Damped Phase): 当 远离最优解时, 为线性收敛速率:

  • 第二阶段 (Pure Newton Phase): 当 接近最优解时, 有二次收敛速率:

正是由于前面的强凸性, 全局 Lipschitz 连续以及 Armijo Condition 的共同作用, 使得在远离最优解时保证算法依然不会发散, 函数值保证下降, 梯度范数保证下降.

Note: 回顾 -强凸性

Definition (Strong Convexity).-强凸函数, 若存在常数 使得对于任意 都有:

其中 称为强凸常数.

Definition (Lipschitz Continuity).-Lipschitz 连续的, 若存在常数 使得对于任意 都有:

其具有如下性质:

  • , 则 . 这说明曲率的下界被 所控制, 不会退化, 所有的特征值均大于 .

  • 函数值的变化率被 控制: .

  • 梯度变化被 控制: .

  • 梯度变化是强单调的: .

  • 在强凸+Lipschitz 连续的假设下, 如下三者在常数意义下等价: .

2.3 Convergence under Self-concordance

Definition (Self-concordance). 以一元函数为例. 称 -self-concordant 的, 若存在常数 使得对于任意 都有:

  • 默认 . 对于其他的取值, 事实上也可以通过缩放 来得到.

若目标函数 是 self-concordant 的, 则不需要上述强凸+光滑的假设, 亦能保证上述的线性+二次的收敛结构.

3. Discussion

3.1 Comparison with First-order Methods

MethodGradient DescentNewton’s Method
内存复杂度
计算复杂度 (对于 Dense 的 Hessian 矩阵)
Backtracking 成本
条件数影响敏感局部不敏感
稳健性弱, 受到数值稳定性, 奇异性等问题的影响

3.2 Sparse, Structured Problems

Hessian 的求解是 Newton’s Method 的瓶颈. 对于一些结构化问题, 例如: sparse, banned (只有主对角线附近有非零元素), 块对角, Toeplitz / Kronecker 结构, Low-rank 等, 可以利用其结构特性来加速 Hessian 的求解.

3.3 Equality Constrained Newton’s Method

对于等式约束优化问题:

一个比较直观的思路是在 的切线空间中进行优化. 记优化的更新方向为 , 即 . 则我们只需保证 即可保证 .

还原到 Newton 法最开始推导的二阶展开表达式, 我们的最小化任务为:

对应 Lagrangian 形式为:

Stationarity Condition 为:

由此, 在计算出 后, 更新: