References

1. Unconstrained Minimization Problems

给定无约束优化问题:

其中 为二次可微函数.

假设该问题存在最优解 且唯一, 并记为最优值 .

在一般的条件下, 我们需要通过数值方法来求解该无约束优化问题, 即计算一系列迭代点 , 使得 时, . 给定容许的误差 , 当 时, 迭代过程停止.

此外, 对于初始点 , 要求其下水平集 (sublevel set) 为:

是闭集 (即点列的极限点仍在该集合内) 以确保迭代的点列不会收敛到定义域外.

1.1 Strong Convexity

在后续分析中, 我们通常假设目标函数 在其定义域上是强凸的 (strong convexity), 即存在常数 , 使得对任意 , 有:

强凸性具有一些良好性质, 其一是满足如下不等式:

Proof of strong convexity lower bound

对于强凸函数 进行二阶 Taylor 展开, 可得:

其中 之间.

由于 , 因此 , 代入上式即得所需不等式.

  • 时, 上述不等式即退化为一般的凸函数定义. 当 时, 该不等式提供了一个更为强的下界.

利用该不等式, 我们可以有效的分析梯度的大小对于优化值与最优值差距 的影响, 分析如下.

  • 将上述不等式的 RHS 看作是关于 的凸二次函数

    故该性质说明在任意 , 都有 .

  • 进一步求 的最小值, 记为 :

    • , 可得最优解 .

    • 代入可得最小值

    • 因此, 对任意 , 有:

  • 由于 对任意 成立, 故取 可得:

  • 整理可得重要不等式:
  • 其直观含义很简单: 当点 处的梯度 越小, 则该点的函数值 越接近最优值 .
  • 这里相当于在强凸假设下给出了收敛的速度估计. 根据收敛准则 , 故令 , 可得梯度范数的次优性条件:

除了在函数值层面的分析, 还可以在任意点 上分析其与最优解 之间的距离, 具体如下.

  • 根据强凸性性质, 特令 中的 , 可得:

  • 注意到 作为内积, 可由 Cauchy-Schwarz 不等式得到下界:

    故代回上式可得:

  • 由于 , 故上式移项可得:

  • , 则上式可化为关于 的不等式:

  • 由于 , 故上式成立当且仅当 , 整理可得:

  • 该不等式说明, 当点 处的梯度 越小, 则该点与最优解 之间的距离越近.

1.2 Smoothness

同时, 由于 上连续, 且 是紧集 (compact set), 故还能确认存在常数 , 使得对任意 , 有:

  • 该条件说明, 在集合 上, 函数 的曲率 (curvature) 被上界 所控制. 这也称为函数 在集合 上是 -Smooth 的, 或者说函数 在集合 上具有 -Lipschitz 连续的梯度:

  • 据此, 由 Smooth 提供的关于 Hessian 的上界, 可得如下重要不等式:

一般而言, 强凸性和光滑性可以通过如下的矩阵不等式来统一表达:

进一步定义 , 称为函数 在集合 上的条件数 (condition number). 该条件数反映了函数在该集合上的曲率变化情况, 其值越接近 1, 则说明函数在该集合上越接近于二次函数.

Note: Lowner Order

  • 对于两个对称矩阵 , 若 为半正定矩阵, 则称 (或等价地 ). 该关系称为 Lowner 序 (Lowner order). 在数学上, 可以表达为, 若 , 则对任意非零向量 , 有 , 或等价地

  • 故上述的 可等价于

  • 注意到, 对于上述的 Hessian , 其是一个对称矩阵, 故有谱分解 , 其中 为正交矩阵, 为对角矩阵, 且 的特征值. 且有事实:

  • 因此对于 , 取 为单位向量, 可知 , 进而有: , 同理 . 综上, 可知:

  • 该结果说明, 等价于 Hessian 矩阵的特征值被界定在区间 上.

2. Descent Methods

2.1 General Descent Methods

总的而言, 下降方法将产生一个优化点列 , 其中:

或简记为:

其中 为搜索方向 (search direction), 为步长 (step size). 如何选择搜索方向 和步长 是下降方法的核心问题.

总的而言, 下降方法的基本算法为:

  • 确定初始点 , 以及容许的误差 .
  • 重复迭代:
    • 计算搜索方向 .
    • 计算步长 .
    • 更新 .
  • , 则停止迭代.

下降方法要求除了最优点 以外的任何搜索点 都满足:

而这一要求直接可以推出:

  • 直观从几何意义上, 这说明搜索方向 必须与负梯度 形成锐角, 即沿最陡下降的某个方向进行搜索.

Proof of descent direction condition

根据凸性的 supporting hyperplane 定理, 对于任意 , 有 . 由于 Descent Method 要求 对任意 成立, 故 .

首先对步长的选择进行讨论. Line Search 是一种常用的步长选择方法. 其包括两种常见的策略:

Exact Line Search.

既然要求更新后的函数值 对任意 成立, 则可以通过求解如下的一维优化问题来选择最优的步长 :

Backtracking Line Search.

实践中常常使用 Backtracking Line Search 来选择步长, 其算法如下:

  • 选择参数 .
  • 初始化 .
  • 时, 更新 .
  • 否则返回 .

该算法的核心思想是, 从一个较大的初始步长 开始, 不断缩小步长 直到满足 Armijo 条件 (Armijo condition):

  • 考虑 的 Taylor 展开:

    (由于 , 故 是一个更小的负数). 因此只要 能够被不断缩小, 就能满足 Armijo 条件.

经验上, , 表示可接受的 的减少量是线性外推的 之间; , 表示每次缩小步长的比例, 其越小表示每次缩小的幅度越大, 搜索越粗糙.

3. Gradient Descent

对于搜索方向 的选择, 最自然的选择是负梯度方向, 即 . 该方法被称为 Gradient Descent (GD). 其更新规则为:

3.1 Convergence Analysis for Gradient Descent

假设 在集合 上满足 , 且只考虑满足 的步长 . 为方便书写, 还引入或重申如下符号:

  • , 表示 GD 更新后的点.
  • , 强调以步长 作为自变量进行 GD 更新后的函数值. 其等价于 .
  • , 表示最优值.

根据 -Smooth 推得到的 可得:

这一不等式将在后续分析中被反复使用.

Convergence with Strong Convexity and Smoothness.

首先讨论在强凸性和光滑性的条件下, GD 的收敛率.

Convergence of GD with Exact Line Search.

  • 回顾, 对于 Exact Line Search, 其步长 的选择满足: . 故对 中左右两侧同取最小值, 可得:

    • RHS 就是当作为关于 的二次函数即可正常求得.
  • 再进一步对上述不等式左右两侧同时减去最优值 , 可得:

  • 由强凸性得到的 仍然成立, 故可得:

  • 若从 开始迭代, 则可得:
  • 其中 .

  • 这说明 geometrically 收敛到 , 其收敛率由 决定. 由于 与条件数 有关, 故函数的条件数越小, 则 GD 的收敛率越快.

  • 这种收敛速度在优化算法中被称为线性收敛 (linear convergence), 其含义是误差 的减少率在每次迭代中至少是一个常数 的倍数.

  • 若再进一步结合收敛准则 , 即令 , 可得 GD 的迭代次数 满足:

    • 分子说明迭代的次数依赖于初始点 的选择 (反映在初始点与最优点的 gap) 和容许的误差 (结束点与最优点的 gap).
    • 分母说明迭代的次数依赖于函数的条件数 , 其值越大 (即函数越不平坦), 则迭代的次数越多.

Convergence of GD with Backtracking Line Search.

回顾, 对于 Backtracking Line Search, 其步长 的选择满足 Armijo 条件: 由于 , 故在 GD 中, Armijo 条件可化为:

  • Claim. 只要通过算法将步长优化至 , 则 Armijo 条件必然满足.

    Proof of the Armijo condition claim . 其 RHS 的二次函数 上满足

    注意到

    因此, 当 时, 可得

    由于 , 故 , 进而可得 . 综上, 当 时, Armijo 条件必然满足.

接着讨论其收敛率.

  • Backtracking Line Search 的算法设计保证了, 其步长 要么终止在 , 要么终止在 (因为当 时, Armijo 条件必然满足, 故不会继续缩小步长, 故 将会是最后一次缩小步长的下界). 因此, 考虑 Backtracking Line Search 的 Armijo 条件, 可得:

  • , 则 Armijo 条件为: .

  • , 则 Armijo 条件为: .

  • 综上, Backtracking Line Search 的 Armijo 条件可化为:

  • 进一步对上述不等式左右两侧同时减去最优值 , 可得:

  • 进一步由强凸性(或 PL) 的等价形式 , 乘上负系数 时不等号方向翻转, 从而可得:

综上, 与 Exact Line Search 的收敛率分析类似, Backtracking Line Search 的收敛率也为线性收敛, 其收敛率由 决定. 由于 , 故 的值将会大于 , 即 Backtracking Line Search 的收敛率将会慢于 Exact Line Search.

Convergence with Convexity.

下面讨论只保留 -Smooth 条件和一般的凸性条件下, GD 的收敛率. 此时我们能够沿用的是由 -Smooth 提供的 不等式:

并且在 Backtracking Line Search 中, 曾讨论当 时, 有

下面在此基础上通过一般的凸性条件来分析 GD 的收敛率.

  • 由凸性的 Supporting Hyperplane 定理:

    整理有

  • 进行展开, 可得:

    • 进行整理可得

  • 结合上述两式, 可得:

    • 其中最后一步是由于 .
  • 迭代 次后, 可得:

    • 为进一步得到该式数量级的估计, 对其进行如下求和放缩:

    • 又由于 Descent Method 要求 是单调递减的, 故 , 进而可得:

  • 该不等式说明, 在一般的凸性条件下, GD 的收敛率为 sublinear convergence, 即 , 或 . 相比于强凸性条件下的线性收敛, , 其收敛速度明显变慢.

3.2 Worst-case Lower Bound of First-order Methods

一般地, 一阶方法 (first-order method) 都可以抽象为如下的迭代过程: 对于第 次迭代, 其更新点 为:

如下定理说明任意一阶方法在的收敛速率下界为 .

对于任意 及任意初始点 , 都能存在一个 -Smooth 的凸函数 , 使得对于任意满足上述迭代过程的一阶方法, 都有:

若进一步放宽 Convexity 的要求, 此时对于非凸优化问题, 我们只能考察其 -stationary point 的收敛速率 (即 ), 有定理如下.

对于固定步长 , GD 方法有:

这说明在非凸优化问题中, GD 的收敛速率将不超过 .