References
- Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/
- Reading: Boyd & Vandenberghe, Convex Optimization, Sections 9.1 and 9.2.
1. Unconstrained Minimization Problems
给定无约束优化问题:
其中 为二次可微函数.
假设该问题存在最优解 且唯一, 并记为最优值 .
在一般的条件下, 我们需要通过数值方法来求解该无约束优化问题, 即计算一系列迭代点 , 使得 时, . 给定容许的误差 , 当 时, 迭代过程停止.
此外, 对于初始点 , 要求其下水平集 (sublevel set) 为:
是闭集 (即点列的极限点仍在该集合内) 以确保迭代的点列不会收敛到定义域外.
1.1 Strong Convexity
在后续分析中, 我们通常假设目标函数 在其定义域上是强凸的 (strong convexity), 即存在常数 , 使得对任意 , 有:
强凸性具有一些良好性质, 其一是满足如下不等式:
Proof of strong convexity lower bound
对于强凸函数 进行二阶 Taylor 展开, 可得:
其中 在 和 之间.
由于 , 因此 , 代入上式即得所需不等式.
- 当 时, 上述不等式即退化为一般的凸函数定义. 当 时, 该不等式提供了一个更为强的下界.
利用该不等式, 我们可以有效的分析梯度的大小对于优化值与最优值差距 的影响, 分析如下.
-
将上述不等式的 RHS 看作是关于 的凸二次函数
故该性质说明在任意 , 都有 .
-
进一步求 的最小值, 记为 :
-
令 , 可得最优解 .
-
代入可得最小值
-
因此, 对任意 , 有:
-
-
由于 对任意 成立, 故取 可得:
- 整理可得重要不等式:
- 其直观含义很简单: 当点 处的梯度 越小, 则该点的函数值 越接近最优值 .
- 这里相当于在强凸假设下给出了收敛的速度估计. 根据收敛准则 , 故令 , 可得梯度范数的次优性条件:
除了在函数值层面的分析, 还可以在任意点 上分析其与最优解 之间的距离, 具体如下.
-
根据强凸性性质, 特令 中的 , 可得:
-
注意到 作为内积, 可由 Cauchy-Schwarz 不等式得到下界:
故代回上式可得:
-
由于 , 故上式移项可得:
-
记 , 则上式可化为关于 的不等式:
-
由于 , 故上式成立当且仅当 , 整理可得:
-
该不等式说明, 当点 处的梯度 越小, 则该点与最优解 之间的距离越近.
1.2 Smoothness
同时, 由于 在 上连续, 且 是紧集 (compact set), 故还能确认存在常数 , 使得对任意 , 有:
-
该条件说明, 在集合 上, 函数 的曲率 (curvature) 被上界 所控制. 这也称为函数 在集合 上是 -Smooth 的, 或者说函数 在集合 上具有 -Lipschitz 连续的梯度:
-
据此, 由 Smooth 提供的关于 Hessian 的上界, 可得如下重要不等式:
一般而言, 强凸性和光滑性可以通过如下的矩阵不等式来统一表达:
进一步定义 , 称为函数 在集合 上的条件数 (condition number). 该条件数反映了函数在该集合上的曲率变化情况, 其值越接近 1, 则说明函数在该集合上越接近于二次函数.
Note: Lowner Order
对于两个对称矩阵 , 若 为半正定矩阵, 则称 (或等价地 ). 该关系称为 Lowner 序 (Lowner order). 在数学上, 可以表达为, 若 , 则对任意非零向量 , 有 , 或等价地
故上述的 可等价于
注意到, 对于上述的 Hessian , 其是一个对称矩阵, 故有谱分解 , 其中 为正交矩阵, 为对角矩阵, 且 为 的特征值. 且有事实:
因此对于 , 取 为单位向量, 可知 , 进而有: , 同理 . 综上, 可知:
该结果说明, 等价于 Hessian 矩阵的特征值被界定在区间 上.
2. Descent Methods
2.1 General Descent Methods
总的而言, 下降方法将产生一个优化点列 , 其中:
或简记为:
其中 为搜索方向 (search direction), 为步长 (step size). 如何选择搜索方向 和步长 是下降方法的核心问题.
总的而言, 下降方法的基本算法为:
- 确定初始点 , 以及容许的误差 .
- 重复迭代:
- 计算搜索方向 .
- 计算步长 .
- 更新 .
- 若 , 则停止迭代.
下降方法要求除了最优点 以外的任何搜索点 都满足:
而这一要求直接可以推出:
- 直观从几何意义上, 这说明搜索方向 必须与负梯度 形成锐角, 即沿最陡下降的某个方向进行搜索.
Proof of descent direction condition
根据凸性的 supporting hyperplane 定理, 对于任意 , 有 . 由于 Descent Method 要求 对任意 成立, 故 .
2.2 Line Search
首先对步长的选择进行讨论. Line Search 是一种常用的步长选择方法. 其包括两种常见的策略:
Exact Line Search.
既然要求更新后的函数值 对任意 成立, 则可以通过求解如下的一维优化问题来选择最优的步长 :
Backtracking Line Search.
实践中常常使用 Backtracking Line Search 来选择步长, 其算法如下:
- 选择参数 和 .
- 初始化 .
- 当 时, 更新 .
- 否则返回 .
该算法的核心思想是, 从一个较大的初始步长 开始, 不断缩小步长 直到满足 Armijo 条件 (Armijo condition):
-
考虑 的 Taylor 展开:
(由于 , 故 是一个更小的负数). 因此只要 能够被不断缩小, 就能满足 Armijo 条件.
经验上, , 表示可接受的 的减少量是线性外推的 到 之间; , 表示每次缩小步长的比例, 其越小表示每次缩小的幅度越大, 搜索越粗糙.
3. Gradient Descent
对于搜索方向 的选择, 最自然的选择是负梯度方向, 即 . 该方法被称为 Gradient Descent (GD). 其更新规则为:
3.1 Convergence Analysis for Gradient Descent
假设 在集合 上满足 , 且只考虑满足 的步长 . 为方便书写, 还引入或重申如下符号:
- , 表示 GD 更新后的点.
- , 强调以步长 作为自变量进行 GD 更新后的函数值. 其等价于 .
- , 表示最优值.
根据 -Smooth 推得到的 可得:
这一不等式将在后续分析中被反复使用.
Convergence with Strong Convexity and Smoothness.
首先讨论在强凸性和光滑性的条件下, GD 的收敛率.
Convergence of GD with Exact Line Search.
-
回顾, 对于 Exact Line Search, 其步长 的选择满足: . 故对 中左右两侧同取最小值, 可得:
- RHS 就是当作为关于 的二次函数即可正常求得.
-
再进一步对上述不等式左右两侧同时减去最优值 , 可得:
-
由强凸性得到的 仍然成立, 故可得:
- 若从 开始迭代, 则可得:
-
其中 .
-
这说明 geometrically 收敛到 , 其收敛率由 决定. 由于 与条件数 有关, 故函数的条件数越小, 则 GD 的收敛率越快.
-
这种收敛速度在优化算法中被称为线性收敛 (linear convergence), 其含义是误差 的减少率在每次迭代中至少是一个常数 的倍数.
-
若再进一步结合收敛准则 , 即令 , 可得 GD 的迭代次数 满足:
- 分子说明迭代的次数依赖于初始点 的选择 (反映在初始点与最优点的 gap) 和容许的误差 (结束点与最优点的 gap).
- 分母说明迭代的次数依赖于函数的条件数 , 其值越大 (即函数越不平坦), 则迭代的次数越多.
Convergence of GD with Backtracking Line Search.
回顾, 对于 Backtracking Line Search, 其步长 的选择满足 Armijo 条件: 由于 , 故在 GD 中, Armijo 条件可化为:
-
Claim. 只要通过算法将步长优化至 , 则 Armijo 条件必然满足.
Proof of the Armijo condition claim . 其 RHS 的二次函数 在 上满足
注意到
因此, 当 时, 可得
由于 , 故 , 进而可得 . 综上, 当 时, Armijo 条件必然满足.
接着讨论其收敛率.
-
Backtracking Line Search 的算法设计保证了, 其步长 要么终止在 , 要么终止在 (因为当 时, Armijo 条件必然满足, 故不会继续缩小步长, 故 将会是最后一次缩小步长的下界). 因此, 考虑 Backtracking Line Search 的 Armijo 条件, 可得:
-
当 , 则 Armijo 条件为: .
-
当 , 则 Armijo 条件为: .
-
综上, Backtracking Line Search 的 Armijo 条件可化为:
-
进一步对上述不等式左右两侧同时减去最优值 , 可得:
- 进一步由强凸性(或 PL) 的等价形式 , 乘上负系数 时不等号方向翻转, 从而可得:
综上, 与 Exact Line Search 的收敛率分析类似, Backtracking Line Search 的收敛率也为线性收敛, 其收敛率由 决定. 由于 , 故 的值将会大于 , 即 Backtracking Line Search 的收敛率将会慢于 Exact Line Search.
Convergence with Convexity.
下面讨论只保留 -Smooth 条件和一般的凸性条件下, GD 的收敛率. 此时我们能够沿用的是由 -Smooth 提供的 不等式:
并且在 Backtracking Line Search 中, 曾讨论当 时, 有
下面在此基础上通过一般的凸性条件来分析 GD 的收敛率.
-
由凸性的 Supporting Hyperplane 定理:
整理有
-
对 进行展开, 可得:
-
进行整理可得
-
-
结合上述两式, 可得:
- 其中最后一步是由于 .
-
迭代 次后, 可得:
-
为进一步得到该式数量级的估计, 对其进行如下求和放缩:
-
又由于 Descent Method 要求 是单调递减的, 故 , 进而可得:
-
- 该不等式说明, 在一般的凸性条件下, GD 的收敛率为 sublinear convergence, 即 , 或 . 相比于强凸性条件下的线性收敛, , 其收敛速度明显变慢.
3.2 Worst-case Lower Bound of First-order Methods
一般地, 一阶方法 (first-order method) 都可以抽象为如下的迭代过程: 对于第 次迭代, 其更新点 为:
如下定理说明任意一阶方法在的收敛速率下界为 .
对于任意 及任意初始点 , 都能存在一个 -Smooth 的凸函数 , 使得对于任意满足上述迭代过程的一阶方法, 都有:
若进一步放宽 Convexity 的要求, 此时对于非凸优化问题, 我们只能考察其 -stationary point 的收敛速率 (即 ), 有定理如下.
对于固定步长 , GD 方法有:
这说明在非凸优化问题中, GD 的收敛速率将不超过 .