Lecture 09 · Stochastic Gradient Descent

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: 最优化: 建模、算法与理论, 刘浩洋等, 2.7 小节.

1. Stochastic Algorithm

为方便讨论, 这里给出一个随机优化在有监督学习中的典型应用.

有输入特征 $X \in R^{d}$ 和输出标签 $Y \in R$ , 且 $(X, Y) \sim P$ . 目标是学习一个函数 $\hat{ϕ} : R^{d} \to R$ 使得 $\hat{ϕ} (X)$ 能够很好地预测 $Y$ . 此外, 往往对 $ϕ$ 的假设空间 $H$ 进行限制以缩小搜索范围, 参数化为 $ϕ (\cdot; θ)$ , 其中 $θ \in R^{p}$ 是模型参数. 通过引入一个损失函数 $L : R \times R \to R$ 来衡量预测误差, 以及正则项 $h : R^{p} \to R$ 来保证解的某些性质, 可以将学习问题表述为如下优化问题:
$θ \in R^{p} min E_{(X, Y) \sim P} [L (ϕ (X; θ), Y)] + h (θ) .$
在实践中, 我们通常只能获得一个有限的训练数据集 ${(x_{i}, y_{i})}_{i = 1}^{N}$ 来近似 $P$ . 因此, 优化问题可以表述为:

θ \in R^{p} min \frac{1}{N} i = 1 \sum N L (ϕ (x_{i}; θ), y_{i}) + h (θ) := f (θ) .

在下面的讨论中, 为表述习惯, 我们将优化问题重新表述为如下形式, 并且暂时假设 $f_{i}$ 为可微且凸的函数.

x \in R^{n} min f (x) := \frac{1}{N} i = 1 \sum N f_{i} (x),

此处可将正则项并入每个分量函数(例如 $f_{i} (x) = ℓ_{i} (x) + h (x)$ ), 或暂时令 $h \equiv 0$ 以专注讨论随机梯度估计本身; 后续结论不依赖具体拆分方式.

2. Stochastic Gradient Descent

2.1 SGD and Mini-batch SGD

考虑原始的梯度下降算法:

x_{k + 1} = x_{k} - α_{k} \nabla f (x_{k}) = x_{k} - α_{k} \frac{1}{N} i = 1 \sum N \nabla f_{i} (x_{k}) .

由于经验风险为 $f (x) = \frac{1}{N} \sum_{i = 1}^{N} f_{i} (x)$ , 则全梯度就是 $\nabla f (x) = \nabla \frac{1}{N} \sum_{i = 1}^{N} f_{i} (x) = \frac{1}{N} \sum_{i = 1}^{N} \nabla f_{i} (x)$ . 计算全梯度需要遍历整个数据集, 当 $N$ 很大时, 计算成本非常高.

SGD 随机梯度法则通过在每次迭代中随机选择一个样本 $i_{k}$ 来近似梯度:

x_{k + 1} = x_{k} - α_{k} \nabla f_{i_{k}} (x_{k}) .

这里, $i_{k}$ 是从 ${1, 2, \dots, N}$ 中随机等可能抽样得到的索引. 用单个样本的梯度近似整个数据集的梯度, 大大降低了每次迭代的计算成本.
该操作的合理性在于, 当给定 $x_{k}$ 时, $\nabla f_{i_{k}} (x_{k})$ 是 $\nabla f (x_{k})$ 的无偏估计, 即 $E_{i_{k}} [\nabla f_{i_{k}} (x_{k}) ∣ x_{k}] = \nabla f (x_{k})$ .

Proof of unbiasedness

由于 $i_{k}$ 是从 ${1, 2, \dots, N}$ 中随机等可能抽样得到的索引, 则有:
$E_{i_{k}} [\nabla f_{i_{k}} (x_{k}) ∣ x_{k}] = i = 1 \sum N P (i_{k} = i) \nabla f_{i} (x_{k}) = \frac{1}{N} i = 1 \sum N \nabla f_{i} (x_{k}) = \nabla f (x_{k}) .$
$□$

不过只选取一个样本的梯度会引入较大的方差, 导致 SGD 的收敛速度较慢. 为了平衡计算效率和收敛速度, 一般使用 mini-batch SGD, 即在每次迭代中随机选择一个小批量的样本 $I_{k} \subset {1, 2, \dots, N}$ 来近似梯度:

x_{k + 1} = x_{k} - α_{k} \frac{1}{∣ I _{k} ∣} i \in I_{k} \sum \nabla f_{i} (x_{k}) .

此外, 对于不可微的优化问题, 也可以考虑使用随机次梯度法则:

x_{k + 1} = x_{k} - α_{k} g_{i_{k}} (x_{k}),

其中 $g_{i_{k}} (x_{k})$ 是 $f_{i_{k}}$ 在 $x_{k}$ 处的一个次梯度.

2.2 Variants of SGD

SGD 方法有一系列的变体, 旨在提高收敛速度和稳定性.

Momentum SGD

传统的 SGD 和 GD 类似, 在较为病态的优化问题中可能会出现收敛缓慢的情况. Momentum 方法通过引入一个动量项来加速收敛, 并在高曲率或噪声场景中提供更为有效的更新.

Momentum SGD 的更新规则如下:

给定动量参数 $μ_{k} \in [0, 1)$ (通常取 $μ_{k} \geq 0.5$ ), 初始化动量向量 $v_{0} = 0$ .
在迭代 $k = 0, 1, 2, \dots$ 中, 更新动量和参数:
- 抽取随机样本索引 $i_{k}$ .
- $v_{k + 1} = μ_{k} v_{k} - α_{k} \nabla f_{i_{k}} (x_{k})$
- $x_{k + 1} = x_{k} + v_{k + 1}$

此处, $v_{k}$ 为动量向量, 用于累积历史梯度信息, 从而在更新参数时考虑历史梯度的方向和大小. $μ_{k}$ 控制了动量的衰减程度, 较大的 $μ_{k}$ 带来较大的惯性, 保留了更多的历史梯度信息, 但可能导致震荡; 较小的 $μ_{k}$ 则更快地响应当前梯度, 但可能失去加速效果.

Nesterov Accelerated Gradient (NAG)

Nesterov Accelerated Gradient (NAG) 是 Momentum 方法的一种改进, 通过在计算梯度时提前考虑动量的影响来进一步加速收敛. NAG 的更新规则如下:

给定动量参数 $μ_{k} = \frac{k - 1}{k + 2}$ , 步长 $α_{k}$ 固定或由线搜索确定.
上述 $μ_{k}$ 序列是确定性加速理论中的一种典型选择; 在深度学习随机训练中更常见的是固定动量系数 (如 $μ \approx 0.9$ ) 的 Nesterov momentum.
在迭代 $k = 0, 1, 2, \dots$ 中:
- 初始化时可令 $x_{- 1} = x_{0}$ (或等价地令初始动量为 $0$ ), 以保证首步定义良好.
- $y_{k + 1} = x_{k} + μ_{k} (x_{k} - x_{k - 1})$
- $x_{k + 1} = y_{k + 1} - α_{k} \nabla f_{i_{k}} (y_{k + 1})$

NAG 方法等价于如下的 Momentum 更新:

$v_{k + 1} = μ_{k} v_{k} - α_{k} \nabla f_{i_{k}} (x_{k} + μ_{k} v_{k})$
$x_{k + 1} = x_{k} + v_{k + 1}$

相比于之前的 Momentum 方法, NAG 方法先计算一个“预更新”位置 $x_{k} + μ_{k} v_{k}$ , 然后在该位置计算梯度, 从而更准确地调整更新方向.

AdaGrad

AdaGrad 是一种自适应学习率方法, 通过根据历史梯度的累积调整每个参数的学习率来提高收敛速度. 在普通的 SGD 中, 每个参数的更新步长是相同的; 而 AdaGrad 将考虑梯度的每个分量的历史累计情况, 来调整每个参数的学习率.

具体而言, 对于梯度 $g_{k} := \nabla f_{i_{k}} (x_{k}) \in R^{n}$ , 定义累计量:

G_{0} = 0, G_{k + 1} = G_{k} + (g_{k} ⊙ g_{k}) .

其中 $⊙$ 表示元素级乘积. $G_{k}$ 是一个向量, 其第 $j$ 个分量 $G_{k, j}$ 表示到第 $k - 1$ 次迭代为止第 $j$ 个参数的梯度平方累计.

若某分量的数值较大, 则说明该参数在之前的迭代中经历了较大的梯度累积, 历史变化较为剧烈, 因此需要较小的学习率来稳定更新
反之, 若某分量的数值较小, 则说明该参数在之前的迭代中经历了较小的梯度累积, 历史变化较为平稳, 可以使用较大的学习率来加速更新.

AdaGrad 的更新规则为:

给定初始学习率 $α > 0$ 和一个小的常数 $ϵ > 0$ (用于数值稳定), 初始化 $G_{0} = 0$ , 以及起点 $x_{0}$ .
在迭代 $k = 0, 1, 2, \dots$ 中:
- 抽取随机样本索引 $i_{k}$ 并计算随机梯度 $g_{k} = \nabla f_{i_{k}} (x_{k})$ .
- $G_{k + 1} = G_{k} + g_{k} ⊙ g_{k}$ .
- $x_{k + 1} = x_{k} - \frac{α}{G _{k + 1} + ϵ 1 _{n}} ⊙ g_{k}$ .

AdaGrad 也可以当作是一种介于一阶方法和二阶方法之间的优化算法. 考虑 $f (x)$ 在 $x_{k}$ 处的二阶 Taylor 展开:

f (x) \approx f (x_{k}) + \nabla f (x_{k})^{⊤} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{⊤} B_{k} (x - x_{k}) .

根据 $B_{k}$ 的不同选择, 可以得到不同的优化算法. 而在上面的索引约定(先更新 $G_{k + 1}$ , 再更新 $x_{k + 1}$ )下, AdaGrad 对应

B_{k} = α^{- 1} diag (G_{k + 1} + ϵ 1_{n}) .

RMSProp

RMSProp (Root Mean Square Propagation) 是 AdaGrad 的一种改进, 该方法在非凸问题上的表现可能更好.

注意到 AdaGrad 的更新步长 $α / G_{k + 1} + ϵ 1_{n}$ 中的累计量会随迭代不断增大, 导致学习率逐渐单调下降, 最终趋近于零, 从而使得算法在后期的迭代中几乎没有更新.
RMSProp 通过引入一个衰减因子 $ρ \in (0, 1)$ 来计算梯度平方的指数加权移动平均, 从而避免了学习率过快下降的问题.

具体地, 将 AdaGrad 中的 $G_{k}$ 累积项改进为:

M_{k + 1} = ρ M_{k} + (1 - ρ) (g_{k} ⊙ g_{k}),

从而得到 RMSProp 的更新规则:

给定初始学习率 $α > 0$ , 衰减因子 $ρ \in (0, 1)$ (一般取 $ρ = 0.9$ ) 和一个小的常数 $ϵ > 0$ , 初始化 $M_{0} = 0$ , 以及迭代起点 $x_{0}$ .
在迭代 $k = 0, 1, 2, \dots$ 中:
- 抽取并计算随机梯度 $g_{k} = \nabla f_{i_{k}} (x_{k})$ .
- 计算 $M_{k + 1} = ρ M_{k} + (1 - ρ) (g_{k} ⊙ g_{k})$ .
- 更新 $x_{k + 1} = x_{k} - \frac{α}{M _{k + 1} + ϵ 1 _{n}} ⊙ g_{k}$ .

其中 $M_{k} + ϵ 1_{n}$ 即为所谓的 RMS (Root Mean Square).

AdaDelta

AdaDelta 是 RMSProp 的一种改进, 旨在进一步提高优化算法的适应性和鲁棒性. 其和 RMSProp 一样需要维护 $M_{k}$ 以指数加权移动平均的方式来计算梯度平方的平均值. AdaDelta 在此基础上, 引入了一个新的累积项 $D_{k}$ 来跟踪参数更新的平方和, 从而将 $α$ 替换为一个自适应的学习率:

累积梯度为: $M_{k + 1} = ρ M_{k} + (1 - ρ) (g_{k} ⊙ g_{k})$ .
累积更新为: $D_{k + 1} = ρ D_{k} + (1 - ρ) (Δ x_{k} ⊙ Δ x_{k})$ , 其中 $Δ x_{k} = x_{k + 1} - x_{k}$ 是第 $k$ 次迭代的实际更新.

其具体更新规则为:

给定衰减因子 $ρ \in (0, 1)$ 和一个小的常数 $ϵ > 0$ , 初始化 $M_{0} = 0$ 和 $D_{0} = 0$ .
在迭代 $k = 0, 1, 2, \dots$ 中:
- 抽取并计算随机梯度 $g_{k} = \nabla f_{i_{k}} (x_{k})$ .
- 计算累积梯度: $M_{k + 1} = ρ M_{k} + (1 - ρ) (g_{k} ⊙ g_{k})$ .
- 计算更新方向: $Δ x_{k} = - \frac{D _{k} + ϵ 1 _{n}}{M _{k + 1} + ϵ 1 _{n}} ⊙ g_{k}$ .
- 更新参数: $x_{k + 1} = x_{k} + Δ x_{k}$ .
- 计算累积更新: $D_{k + 1} = ρ D_{k} + (1 - ρ) (Δ x_{k} ⊙ Δ x_{k})$ .

Adam

Adam (Adaptive Moment Estimation) 本质上是包含了 Momentum 和 RMSProp 的优化算法, 通过同时考虑梯度的一阶矩和二阶矩来调整每个参数的学习率. Adam 的优势在于偏差校正可缓解零初始化造成的一阶/二阶矩低估, 同时二阶矩分母可抑制坐标方向上的过大更新, 从而使参数更新更平稳.

具体而言, Adam 进行了如下的调整:

从之前的梯度作为更新方向改为对梯度的历史指数加权累计: $S_{k} = ρ_{1} S_{k - 1} + (1 - ρ_{1}) g_{k}$ , 其中 $ρ_{1}$ 是一阶矩的衰减率, 通常取 $ρ_{1} = 0.9$ .
同时其也会记录梯度的二阶矩: $M_{k} = ρ_{2} M_{k - 1} + (1 - ρ_{2}) (g_{k} ⊙ g_{k})$ , 其中 $ρ_{2}$ 是二阶矩的衰减率, 通常取 $ρ_{2} = 0.999$ .
在正式更新参数之前, 还要额外进行了偏差校正:
- $\hat{S}_{k} = \frac{S _{k}}{1 - ρ _{1}^{k}}$ , $\hat{M}_{k} = \frac{M _{k}}{1 - ρ _{2}^{k}}$ . 其中 $ρ_{1}^{k}$ 和 $ρ_{2}^{k}$ 分别是 $ρ_{1}$ 和 $ρ_{2}$ 的 $k$ 次幂, 用于校正初始时刻的偏差.

Adam 的更新规则为:

给定初始学习率 $α > 0$ , 衰减率 $ρ_{1}, ρ_{2} \in (0, 1)$ 和一个小的常数 $ϵ > 0$ , 初始化 $S_{0} = 0$ 和 $M_{0} = 0$ , 及迭代起点 $x_{0}$ .
在迭代 $k = 0, 1, 2, \dots$ 中:
- 抽取并计算随机梯度 $g_{k} = \nabla f_{i_{k}} (x_{k})$ .
- 更新一阶矩: $S_{k + 1} = ρ_{1} S_{k} + (1 - ρ_{1}) g_{k}$ .
- 更新二阶矩: $M_{k + 1} = ρ_{2} M_{k} + (1 - ρ_{2}) (g_{k} ⊙ g_{k})$ .
- 进行偏差校正: $\hat{S}_{k + 1} = \frac{S _{k + 1}}{1 - ρ _{1}^{k + 1}}$ , $\hat{M}_{k + 1} = \frac{M _{k + 1}}{1 - ρ _{2}^{k + 1}}$ .
- 更新参数: $x_{k + 1} = x_{k} - \frac{α}{M ^ _{k + 1} + ϵ 1 _{n}} ⊙ \hat{S}_{k + 1}$ .

3. Convergence Analysis of SGD

3.1 Convergence under General Convexity

首先讨论在一般凸函数上的收敛性. 有如下假设:

每个 $f_{i}$ 都是闭凸函数, 存在 subgradient.
随机次梯度的二阶矩有界, 即存在常数 $M > 0$ 使得 $E [∥ g_{i_{k}} (x_{k}) ∥^{2}] \leq M^{2} < \infty$ 对于所有 $k$ 都成立, 其中 $g_{i_{k}} (x_{k}) \in \partial f_{i_{k}} (x_{k})$ 是随机样本 $i_{k}$ 处的一个次梯度.
- 这是随机次梯度范数二阶矩有界假设(并非直接等同于方差定义), 它保证了 SGD 更新噪声可控.
迭代点到最优点的距离有界. 即存在常数 $R > 0$ 使得 $∥ x_{k} - x^{*} ∥ \leq R$ 对于所有 $k$ 都成立.

注: 在进行 SGD 的收敛分析时, 由于每次迭代的更新方向是随机的, 因此我们通常关注的是算法的期望行为或者高概率行为. 此外, 对于某一个具体的迭代点 $x_{k}$ , 由于 $i_{k}$ 的随机性, 其更新方向 $g_{i_{k}} (x_{k})$ 也是随机的, 因此我们通常也会考虑这些迭代点的平均重心 $\overset{x}{ˉ}_{k}$ 来分析算法的收敛性.

Lemma (SGD 的累计误差). 在上述假设下,令 ${α_{k}}$ 是任意正步长序列, ${x_{k}}$ 是 SGD 迭代生成的点列, 则对于任意 $K \geq 1$ , 都有如下不等式成立:

k = 1 \sum K α_{k} E [f (x_{k}) - f (x^{*})] \leq \frac{1}{2} E [∥ x_{1} - x^{*} ∥^{2}] + \frac{1}{2} k = 1 \sum K α_{k}^{2} M^{2},

Proof of the cumulative-error lemma

记 $g_{k} := g_{i_{k}} (x_{k}) \in \partial f_{i_{k}} (x_{k})$ 是指在第 $k$ 次迭代中, 随机选择的样本 $i_{k}$ 在 $x_{k}$ 处的一个次梯度. 记 $\overset{g}{ˉ}_{k} := E [g_{i_{k}} (x_{k}) ∣ x_{k}]$ 是 $x_{k}$ 处的随机次梯度的条件期望, 则由 SGD 估计的无偏性可知 $\overset{g}{ˉ}_{k} \in \partial f (x_{k})$ . 记 $ξ_{k} = g_{k} - \overset{g}{ˉ}_{k}$ 为随机次梯度的噪声, 则 $E [ξ_{k} ∣ x_{k}] = 0$ .

由次梯度的性质 $⟨ \overset{g}{ˉ}_{k}, x^{*} - x_{k} ⟩ \leq f (x^{*}) - f (x_{k})$ , 可以推得:
$\frac{1}{2} ∥ x_{k + 1} - x^{*} ∥^{2} = \frac{1}{2} ∥ x_{k} - α_{k} g_{k} - x^{*} ∥^{2} = \frac{1}{2} ∥ x_{k} - x^{*} ∥^{2} - α_{k} ⟨ g_{k}, x_{k} - x^{*} ⟩ + \frac{1}{2} α_{k}^{2} ∥ g_{k} ∥^{2} = \frac{1}{2} ∥ x_{k} - x^{*} ∥^{2} - α_{k} ⟨ \overset{g}{ˉ}_{k}, x_{k} - x^{*} ⟩ - α_{k} ⟨ ξ_{k}, x_{k} - x^{*} ⟩ + \frac{1}{2} α_{k}^{2} ∥ g_{k} ∥^{2} \leq \frac{1}{2} ∥ x_{k} - x^{*} ∥^{2} - α_{k} (f (x_{k}) - f (x^{*})) - α_{k} ⟨ ξ_{k}, x_{k} - x^{*} ⟩ + \frac{1}{2} α_{k}^{2} ∥ g_{k} ∥^{2} .$

又根据条件期望 $E [⟨ ξ_{k}, x_{k} - x^{*} ⟩ ∣ x_{k}] = 0$ , 利用重期望可以得到: $E [⟨ ξ_{k}, x_{k} - x^{*} ⟩] = E [E [⟨ ξ_{k}, x_{k} - x^{*} ⟩ ∣ x_{k}]] = 0$ . 因此, 对上述不等式两边取期望, 可以得到:
$α_{k} E [f (x_{k}) - f (x^{*})] \leq \frac{1}{2} E [∥ x_{k} - x^{*} ∥^{2}] - \frac{1}{2} E [∥ x_{k + 1} - x^{*} ∥^{2}] + \frac{1}{2} α_{k}^{2} M^{2} .$

将上述不等式对 $k = 1, 2, \dots, K$ 进行求和, 可以得到:
$k = 1 \sum K α_{k} E [f (x_{k}) - f (x^{*})] \leq \frac{1}{2} E [∥ x_{1} - x^{*} ∥^{2}] + \frac{1}{2} k = 1 \sum K α_{k}^{2} M^{2} .$

$□$

上述引理在说明:
- SGD 的累计误差 (即 $\sum_{k = 1}^{K} α_{k} E [f (x_{k}) - f (x^{*})]$ ) 可以被初始点与最优点之间的距离 $∥ x_{1} - x^{*} ∥^{2}$ 和噪声项 $\sum_{k = 1}^{K} α_{k}^{2} M^{2}$ 控制.
- 这为我们分析 SGD 的收敛性提供了一个重要的工具, 因为它将算法的性能与初始条件和随机梯度的方差联系起来.

Theorem (SGD 的收敛性 1: 在步长加权平均意义下的收敛). 在上述假设下, 定义步长加权平均点 $\overset{x}{ˉ}_{K} := \frac{\sum _{k = 1}^{K} α _{k} x _{k}}{\sum _{k = 1}^{K} α _{k}}$ , 则对于任意 $K \geq 1$ , 都有如下期望意义下的收敛性保证:

E [f (\overset{x}{ˉ}_{K}) - f (x^{*})] \leq \frac{R ^{2} + \sum _{k = 1}^{K} α _{k}^{2} M ^{2}}{2 \sum _{k = 1}^{K} α _{k}} .

Proof of the stepsize-weighted averaging theorem

记 $A_{K} := \sum_{k = 1}^{K} α_{k}$ , 则 $\overset{x}{ˉ}_{K} = \frac{1}{A _{K}} \sum_{k = 1}^{K} α_{k} x_{k}$ . 由于 $f$ 是凸函数, 由 Jensen Inequality 可以得到:
$f (\overset{x}{ˉ}_{K}) = f (\frac{1}{A _{K}} k = 1 \sum K α_{k} x_{k}) \leq \frac{1}{A _{K}} k = 1 \sum K α_{k} f (x_{k}) .$

两侧同时减去 $f (x^{*})$ 并取期望, 可以得到:
$E [f (\overset{x}{ˉ}_{K}) - f (x^{*})] \leq \frac{1}{A _{K}} k = 1 \sum K α_{k} E [f (x_{k}) - f (x^{*})] .$

结合之前的引理, 可以得到:
$E [f (\overset{x}{ˉ}_{K}) - f (x^{*})] \leq \frac{1}{A _{K}} (\frac{1}{2} E [∥ x_{1} - x^{*} ∥^{2}] + \frac{1}{2} k = 1 \sum K α_{k}^{2} M^{2}) \leq \frac{R ^{2} + \sum _{k = 1}^{K} α _{k}^{2} M ^{2}}{2 A _{K}} .$

$□$

由上述定理可以看出, SGD 的收敛速度取决于步长序列 ${α_{k}}$ 的选择.
- 例如, 当 $\sum_{k = 1}^{\infty} α_{k} = \infty$ 且 $\sum_{k = 1}^{\infty} α_{k}^{2} < \infty$ 时, 随机梯度下降算法在期望意义下收敛到最优值, 即 $lim_{K \to \infty} E [f (\overset{x}{ˉ}_{K}) - f (x^{*})] = 0$ .
- 若选择 $α_{k}$ 为一个固定步长 $α > 0$ , 则其在期望意义下是不收敛的, 即 $E [f (\overset{x}{ˉ}_{K}) - f (x^{*})] \leq \frac{R ^{2} + K α ^{2} M ^{2}}{2 K α} ⟶ K \to \infty \frac{α M ^{2}}{2} > 0$ . 此时只能确定一个次优解的误差上界, 但无法保证其收敛到最优值.

Theorem (SGD 的收敛性 2: 不增步长序列下的等权平均收敛). 在上述假设下, 定义等权平均点 $\overset{x}{^}_{K} := \frac{1}{K} \sum_{k = 1}^{K} x_{k}$ , 且要求步长序列 ${α_{k}}$ 是一个不增的正数列, 则对于任意 $K \geq 1$ , 都有如下期望意义下的收敛性保证:

E [f (\overset{x}{^}_{K}) - f (x^{*})] \leq \frac{R ^{2}}{2 K α _{K}} + \frac{1}{2 K} k = 1 \sum K α_{k} M^{2} .

该定理与前一定理的主要区别在于, 前者是针对步长加权平均点 $\overset{x}{ˉ}_{K}$ 的收敛性保证, 而后者则是针对等权平均点 $\overset{x}{^}_{K}$ 的收敛性保证, 其额外只需要要求步长序列 ${α_{k}}$ 是一个不增的正数列即可.
通过选择合适的步长序列, 例如 $α_{k} = O (1/ k)$ , 可以得到 $E [f (\overset{x}{^}_{K}) - f (x^{*})] = O (1/ K)$ 的收敛速度, 这也是 SGD 在一般凸函数上的最优收敛速度.
- 特别地, 取 $α_{k} = \frac{R}{M k}$ , 则可以得到 $E [f (\overset{x}{^}_{K}) - f (x^{*})] \leq \frac{3 RM}{2 K}$ 的收敛速度.

Discussion: 讨论

在一般凸且可能非光滑的设定下, 确定性次梯度法与随机次梯度法在最优量级上都可达到 $O (1/ K)$ . 但若进一步假设目标函数光滑, 则确定性梯度下降可达到 $O (1/ K)$ (加速法可达 $O (1/ K^{2})$ ), 而朴素 SGD 在不做方差缩减时通常仍是 $O (1/ K)$ 量级.

Theorem (SGD 的收敛性 3: 衰减步长下的依概率收敛). 在上述假设下, 定义等权平均点 $\overset{x}{^}_{K} := \frac{1}{K} \sum_{k = 1}^{K} x_{k}$ , 且选择步长 $α_{k} = O (1/ k)$ (如 $α_{k} = \frac{R}{M k}$ ), 则有如下依概率收敛性保证:

f (\overset{x}{^}_{K}) - f (x^{*}) ⟶ P 0 as K \to \infty.

或等价地

K \to \infty lim P (f (\overset{x}{^}_{K}) - f (x^{*}) \leq ϵ) = 1 for any ϵ > 0.

Proof of convergence in probability

由于 $α_{k} = O (1/ k)$ , 则由 Theorem 2 可以得到 $E [f (\overset{x}{^}_{K}) - f (x^{*})] \to 0$ 当 $K \to \infty$ .

根据 Markov 不等式, 对任意 $ϵ > 0$ , 可以得到:
$P (f (\overset{x}{^}_{K}) - f (x^{*}) > ϵ) \leq \frac{E [ f ( x ^ _{K} ) - f ( x ^{*} )]}{ϵ} \to 0 as K \to \infty.$

$□$

Theorem (SGD 的收敛性 3’: 衰减步长下的依概率收敛速度). 在上述假设下, 进一步假设对于所有次梯度 $g_{i_{k}} (x_{k})$ 都满足 $∥ g_{i_{k}} (x_{k}) ∥ \leq M$ 几乎处处成立, 则对于任意 $ϵ > 0$ , 可保证如下收敛以至少 $1 - exp (- ϵ^{2} /2)$ 的概率成立:

f (\overset{x}{^}_{K}) - f (x^{*}) \leq Expectation Bound in Thm. 2 \frac{R ^{2}}{2 K α _{K}} + \frac{1}{2 K} k = 1 \sum K α_{k} M^{2} + Prob. Bound \frac{RM}{K} ϵ .

特别地, 若取 $α_{k} = \frac{R}{M k}$ , $δ = exp (- ϵ^{2} /2)$ , 则可以得到如下概率收敛速度:
$P {f (\overset{x}{^}_{K}) - f (x^{*}) \leq \frac{3 RM}{2 K} + \frac{RM}{K} 2 lo g (1/ δ)} \geq 1 - δ .$

3.2 Convergence under Strong Convexity

下面给出一个更常见且自洽的复杂度对比(按分量梯度计算次数计; 忽略条件数常数细节). 其中 $N$ 是样本数, $κ = L / μ$ 是条件数:

方法 \ 目标类	凸, 可能非光滑	凸且 $L$ -smooth	$μ$ -强凸且 $L$ -smooth
SGD (无方差缩减)	$O (1/ ϵ^{2})$	$O (1/ ϵ^{2})$	$O (1/ ϵ)$
Full GD (每步全梯度)	$O (N / ϵ^{2})$	$O (N / ϵ)$	$O (N lo g (1/ ϵ))$
方差缩减 (SVRG/SAGA/SAG 等)	通常不主打该设定	通常不主打该设定	$O ((N + κ) lo g (1/ ϵ))$

在强凸光滑且追求高精度时, 方差缩减方法通常优于朴素 SGD, 这也是其主要动机.
在中低精度或 $N$ 极大时, SGD 由于单步成本低, 仍可能更具实践优势.

4. Variance Reduction Techniques for SGD

4.1 Consequences of Variance in SGD

假设目标函数 $f$ 是 $μ$ -强凸的，并且 $L$ -光滑的，那么对于任意的 $x, y$ ，都有:

强凸: $⟨ \nabla f (x) - \nabla f (y), x - y ⟩ \geq μ ∥ x - y ∥^{2}$
光滑: $∥\nabla f (x) - \nabla f (y) ∥ \leq L ∥ x - y ∥$

记更新为 $x_{k + 1} = x_{k} - α \nabla f_{i_{k}} (x_{k})$ , 并定义噪声

ζ_{k} := \nabla f_{i_{k}} (x_{k}) - \nabla f (x_{k}), E [ζ_{k} ∣ x_{k}] = 0.

再记 $Δ_{k} = ∥ x_{k} - x^{*} ∥^{2}$ . 则可得到如下典型递推:

E [Δ_{k + 1}] = E [∥ x_{k + 1} - x^{*} ∥^{2}] \leq A: Deterministic contraction (1 - 2 αμ + α^{2} L^{2}) E [Δ_{k}] + B: stochastic-noise term α^{2} E [∥ ζ_{k} ∥^{2}]

通过上面的分解可以看到, 总的误差由两部分组成:
- A: 确定性收缩项, 由步长 $α$ , 强凸参数 $μ$ 和光滑参数 $L$ 决定; 当 $α$ 合适时该项带来线性收缩趋势.
- B: 噪声驱动项, 反映随机梯度的条件方差效应.
  - 若使用常数步长, B 项不会自动消失, 常导致收敛到一个与步长相关的误差地板.
  - 若使用递减步长, B 项可随迭代减弱, 在强凸设定下可获得 $O (1/ k)$ 量级结果.
  - 方差缩减方法 (SVRG/SAGA/SAG 等) 的核心就是削弱 B 项对后期收敛的限制.

4.2 Variance Reduction Techniques

SAG and SAGA

SAG (Stochastic Average Gradient) 和 SAGA 通过维护历史梯度来减少随机梯度的方差.

SAG 方法会维护一个梯度存储表 ${g_{i}^{k}}_{i = 1}^{N}$ , 其中 $g_{i}^{k}$ 表示“第 $k$ 次迭代开始时”第 $i$ 个样本的存储梯度. 在每次迭代中, 随机选择一个样本索引 $i_{k}$ , 用新梯度覆盖该位置, 并使用全表平均梯度更新参数. 其具体更新规则为:

初始化: $g_{i}^{0} = [0, \dots, 0]$ 对于所有 $i = 1, 2, \dots, N$ , 以及起点 $x_{0}$ .
在迭代 $k = 0, 1, 2, \dots$ 中:
- 随机选择一个样本索引 $i_{k} \in {1, 2, \dots, N}$ .
- 计算新梯度: $g^{new} = \nabla f_{i_{k}} (x_{k})$ .
- 更新梯度表: $g_{i_{k}}^{k + 1} = g^{new}$ , 且 $g_{i}^{k + 1} = g_{i}^{k} (i \neq = i_{k})$ .
- 更新参数: $x_{k + 1} = x_{k} - α \frac{1}{N} \sum_{i = 1}^{N} g_{i}^{k + 1}$ .

在强凸光滑假设下, 对于固定步长 $α = 1/ (16 L)$ , 及零梯度初始化, SAG 的收敛速度为:

E [f (x_{k}) - f (x^{*})] \leq (1 - min {\frac{μ}{16 L}, \frac{1}{8 N}})^{k} \cdot C_{0} .

SAG 的缺点是在于其需要维护一个 $N$ 维的梯度列表, 当数据集较大时, 其内存开销较大. 另一方面, SAG 的随机梯度估计是有偏的, 因此 SAGA 则使用一个无偏的随机梯度估计来改进 SAG. 若第 $k$ 步开始时存储表为 ${g_{i}^{k}}_{i = 1}^{N}$ , 则:

g^{new} = \nabla f_{i_{k}} (x_{k}), v_{k} = g^{new} - g_{i_{k}}^{k} + \frac{1}{N} i = 1 \sum N g_{i}^{k},

x_{k + 1} = x_{k} - α_{k} v_{k},

并在步末更新 $g_{i_{k}}^{k + 1} = g^{new}$ , 其余分量保持 $g_{i}^{k + 1} = g_{i}^{k} (i \neq = i_{k})$ .

SVRG

SVRG 通过周期性记录全梯度 checkpoint, 并在每次迭代时通过与 checkpoint 的全梯度进行差分来减少随机梯度的方差. 记 $\tilde{x}^{(j)}$ 是第 $j$ 个 checkpoint, 对应的全梯度为 $\nabla f (\tilde{x}^{(j)}) = \frac{1}{N} \sum_{i = 1}^{N} \nabla f_{i} (\tilde{x}^{(j)})$ . 故在每次迭代中, 更新方向为:

v_{k} := \nabla f_{i_{k}} (x_{k}) - [\nabla f_{i_{k}} (\tilde{x}^{(j)}) - \nabla f (\tilde{x}^{(j)})] .

OptOpt

Explorer

Lecture 09 · Stochastic Gradient Descent

1. Stochastic Algorithm

2. Stochastic Gradient Descent

2.1 SGD and Mini-batch SGD

2.2 Variants of SGD

Momentum SGD

Nesterov Accelerated Gradient (NAG)

AdaGrad

RMSProp

AdaDelta

Adam

3. Convergence Analysis of SGD

3.1 Convergence under General Convexity

3.2 Convergence under Strong Convexity

4. Variance Reduction Techniques for SGD

4.1 Consequences of Variance in SGD

4.2 Variance Reduction Techniques

SAG and SAGA

SVRG

Graph View

Table of Contents