Lecture 07 · Subgradient Methods

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: https://stanford.edu/class/ee364b/lectures/subgrad_method_slides.pdf

1. Introduction & Motivation

对于无约束凸优化问题 $min_{x \in R^{n}} f (x)$ , 如果 $f$ 是可微的, 我们可以用梯度下降法: $x^{(k + 1)} = x^{(k)} - t_{k} \nabla f (x^{(k)})$ 进行优化. 若 $\nabla f (x)$ 是 Lipschitz 连续的, 则可以保证其收敛速率为 $O (1/ k)$ .
当 $f$ 不可微时, 我们可以使用次梯度方法 (subgradient method) 来进行优化: 类似地, 首先确定初始点 $x^{(0)}$ , 然后迭代更新:
$x^{(k + 1)} = x^{(k)} - t_{k} \cdot g^{(k)}, g^{(k)} \in \partial f (x^{(k)})$
其中 $\partial f (x)$ 是 $f$ 在 $x$ 处的 subdifferential.
然而, 由于 subgradient 更新并不一定必然导致函数值的下降, 因此需要对每次的更新值进行追踪, 并记录迄今为止的最优值 $f (x_{b es t}) = min_{0 \leq i \leq k} f (x^{(i)})$ .

2. Subgradient Algorithm

2.1 Step Size Selection

在更一般的非光滑优化问题中, 选择一个能同时保证收敛又能有效步进的步长往往是十分困难的, 因此往往是通过经验提前设定的, 常见的步长选择方法有:

固定步长: $t_{k} = t$ .
固定步进: $t_{k} = γ /∥ g^{(k)} ∥_{2}$ , 其中 $γ$ 是一个常数, 这样保证每次更新的步长 $∥ x^{(k + 1)} - x^{(k)} ∥_{2} = γ$ 是固定的.
平方收敛步长: 使得步长满足 $\sum_{k = 1}^{\infty} t_{k} = \infty$ 和 $\sum_{k = 1}^{\infty} t_{k}^{2} < \infty$ , 例如 $t_{k} = \frac{1}{k}$ .
极限收敛步长: 使得步长满足 $lim_{k \to \infty} t_{k} = 0$ 和 $\sum_{k = 1}^{\infty} t_{k} = \infty$ , 例如 $t_{k} = \frac{1}{k}$ .

3. Convergence Analysis

3.1 Assumptions

为分析方便, 额外添加如下假设:

$f$ 是凸的, 且 $dom (f) = R^{n}$ .
最优值是有限的 ( $f^{*} = min_{x \in R^{n}} f (x) > - \infty$ ) 且可达的 (存在 $x^{*} \in R^{n}$ 使得 $f (x^{*}) = f^{*}$ ).
初始点 $x^{(0)}$ 与最优点 $x^{*}$ 之间的距离是有限的, 即 $∥ x^{(0)} - x^{*} ∥_{2} \leq R$ .
$f$ 是 $G$ -Lipschitz 连续的, 即 $∥ g ∥_{2} \leq G$ 对于所有 $g \in \partial f (x)$ 和 $x \in R^{n}$ 都成立, 或等价地 $∣ f (x) - f (y) ∣ \leq G ∥ x - y ∥_{2}$ 对于所有 $x, y \in R^{n}$ 都成立.
Proof of the Lipschitz/subgradient-bound equivalence
- 下给出两种表述的等价性证明.
- 由 $∥ g ∥_{2} \leq G$ 推出 $∣ f (x) - f (y) ∣ \leq G ∥ x - y ∥_{2}$ .
  - 由于 $g \in \partial f (x)$ , 根据 subgradient 的定义, 对于任意 $y \in R^{n}$ , 都有 $f (y) \geq f (x) + g^{⊤} (y - x)$ , 从而 $f (x) - f (y) \leq g^{⊤} (x - y)$
  - 由 Cauchy-Schwarz 不等式, $g^{⊤} (x - y) \leq ∥ g ∥_{2} ∥ x - y ∥_{2} \leq G ∥ x - y ∥_{2}$ , 从而 $f (x) - f (y) \leq G ∥ x - y ∥_{2}$ . 同理由对称性, 我们也可以得到 $f (y) - f (x) \leq G ∥ y - x ∥_{2}$ , 从而 $∣ f (x) - f (y) ∣ \leq G ∥ x - y ∥_{2}$ .
- 由 $∣ f (x) - f (y) ∣ \leq G ∥ x - y ∥_{2}$ 推出 $∥ g ∥_{2} \leq G$ .
  - 由 subgradient 的定义, 取单位向量 $u$ , 令 $y = x + t u$ , $t > 0$ , 则 $f (x + t u) \geq f (x) + g^{⊤} (t u)$ , 从而
    $\frac{f ( x + t u ) - f ( x )}{t} \geq g^{⊤} u$
  - 由 Lipschitz 连续性, $\frac{f ( x + t u ) - f ( x )}{t} \leq G ∥ u ∥_{2} = G$ . 因此 $g^{⊤} u \leq G$ 对于任意单位向量 $u$ 都成立.
  - 根据事实: $∥ g ∥_{2} = sup_{∥ u ∥_{2} = 1} g^{⊤} u$ , 可得 $∥ g ∥_{2} \leq G$ .
$□$

3.2 Basic Inequality & Convergence Analysis

首先给出如下基本不等式, 以便后续分析. 记 $f (x_{best}^{(k)}) = min_{0 \leq i \leq k} f (x^{(i)})$ 为历史最优值, $R$ 为初始点与最优点之间的距离, $G$ 为 $f$ 的 Lipschitz 常数, $t_{k}$ 为第 $k$ 次迭代的步长, $f^{*} = f (x^{*})$ 为最优值, 则对于任意 $k \geq 0$ , 都有:

f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + G ^{2} \sum _{i = 0}^{k} t _{i}^{2}}{2 \sum _{i = 0}^{k} t _{i}}

Proof of the basic inequality

首先证明 $∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} \leq ∥ x^{(k)} - x^{*} ∥_{2}^{2} - 2 t_{k} [f (x^{(k)}) - f (x^{*})] + t_{k}^{2} ∥ g^{(k)} ∥_{2}^{2}$ .

由 subgradient method 的更新公式, 有 $∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} = ∥ x^{(k)} - t_{k} g^{(k)} - x^{*} ∥_{2}^{2} = ∥ x^{(k)} - x^{*} ∥_{2}^{2} - 2 t_{k} (g^{(k)})^{⊤} (x^{(k)} - x^{*}) + t_{k}^{2} ∥ g^{(k)} ∥_{2}^{2}$ .

由 subgradient 的定义, $f (x^{*}) \geq f (x^{(k)}) + (g^{(k)})^{⊤} (x^{*} - x^{(k)})$ , 从而 $(g^{(k)})^{⊤} (x^{(k)} - x^{*}) \geq f (x^{(k)}) - f (x^{*})$ . 因此上不等式最终可以化为:
$∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} \leq ∥ x^{(k)} - x^{*} ∥_{2}^{2} - 2 t_{k} [f (x^{(k)}) - f (x^{*})] + t_{k}^{2} ∥ g^{(k)} ∥_{2}^{2}$

接下来, 将上述不等式 $^{(1)}$ 进行迭代展开 , 并根据 $^{(2)}$ $f (x_{best}^{(k)}) = min_{0 \leq i \leq k} f (x^{(i)})$ , 因此 $f (x^{(i)}) - f (x^{*}) \geq f (x_{best}^{(k)}) - f (x^{*})$ 对于所有 $0 \leq i \leq k$ 都成立 ,以及 $^{(3)}$ $∥ x^{(0)} - x^{*} ∥_{2} \leq R$ 的假设, 可以得到:
$∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} \leq (1) ∥ x^{(0)} - x^{*} ∥_{2}^{2} - 2 i = 0 \sum k t_{i} [f (x^{(i)}) - f (x^{*})] + i = 0 \sum k t_{i}^{2} ∥ g^{(i)} ∥_{2}^{2} \leq (2) ∥ x^{(0)} - x^{*} ∥_{2}^{2} - 2 [f (x_{best}^{(k)}) - f (x^{*})] i = 0 \sum k t_{i} + i = 0 \sum k t_{i}^{2} ∥ g^{(i)} ∥_{2}^{2} \leq (3) R^{2} - 2 [f (x_{best}^{(k)}) - f (x^{*})] i = 0 \sum k t_{i} + i = 0 \sum k t_{i}^{2} ∥ g^{(i)} ∥_{2}^{2}$

进而整理得到:
$f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + \sum _{i = 0}^{k} t _{i}^{2} ∥ g ^{(i)} ∥ _{2}^{2}}{2 \sum _{i = 0}^{k} t _{i}}$

若进一步利用 $f$ 的 Lipschitz 连续性, 即 $∥ g^{(i)} ∥_{2} \leq G$ 对于所有 $i$ , 则可以得到:
$f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + G ^{2} \sum _{i = 0}^{k} t _{i}^{2}}{2 \sum _{i = 0}^{k} t _{i}}$

$□$

对于不同的步长策略, 上不等式可以进一步进行化简整理.
- 对于固定步长 $t_{k} = t$ , 上式可以化简为:
  $f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + G ^{2} t ^{2} ( k + 1 )}{2 t ( k + 1 )} ⟶ k \to \infty \frac{G ^{2} t}{2}$
- 对于固定步进 $t_{k} = γ /∥ g^{(k)} ∥_{2}$ , 将其带入 Lipschitz 连续性化简前的不等式, 可以得到:
  $f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + \sum _{i = 0}^{k} ( \frac{γ}{∥ g ^{(i)} ∥ _{2}} ) ^{2} ∥ g ^{(i)} ∥ _{2}^{2}}{2 \sum _{i = 0}^{k} \frac{γ}{∥ g ^{(i)} ∥ _{2}}} = \frac{R ^{2} + ( k + 1 ) γ ^{2}}{2 γ \sum _{i = 0}^{k} 1/∥ g ^{(i)} ∥ _{2}} \leq \frac{R ^{2} + ( k + 1 ) γ ^{2}}{2 γ ( k + 1 ) / G} ⟶ k \to \infty \frac{G γ}{2}$
- 对于平方收敛步长 $t : \sum t_{k}^{2} < \infty$ 和 $\sum t_{k} = \infty$ , 上式可以化简为:
  $f (x_{best}^{(k)}) - f (x^{*}) \leq \frac{R ^{2} + G ^{2} \sum _{i = 0}^{k} t _{i}^{2}}{2 \sum _{i = 0}^{k} t _{i}} ⟶ k \to \infty 0$
总的而言, 其一般的收敛速率为 $O (\frac{1}{ϵ ^{2}})$ , 这一速率是非常缓慢的. 如果观测其收敛上界 $\frac{R ^{2} + G ^{2} \sum _{i = 0}^{k} t _{i}^{2}}{2 \sum _{i = 0}^{k} t _{i}}$ , 由 Cauchy-Schwarz 不等式可以给出理论的最快收敛情况在等步长 $t_{k} = \frac{R}{G k + 1}$ 时达到, 此时上界为 $\frac{RG}{k}$ , 从而可以得到 $O (\frac{1}{ϵ ^{2}})$ 的收敛速率. 此外, 这个停止条件依赖 $R, G, f^{*}$ 之类的全局常数, 现实里通常不知道, 而且即便知道, 它也只给出一个极其保守的最坏情况保证.

Example (Subgradient method on a maximum of affine functions). 考虑如下的非光滑优化问题:

min f (x) = 1 \leq i \leq m max a_{i}^{⊤} x + b_{i}

对于该函数, 在之前的章节中提供了其 subgradient 的计算方法, 这里记之为 $g \in \partial f (x)$ . 下分别考虑通过固定步进和几种衰退步长的 subgradient method 来进行优化, 其迭代更新公式如下:

固定步进: $x^{(k + 1)} = x^{(k)} - \frac{γ}{∥ g ^{(k)} ∥ _{2}} g^{(k)}$ , 分别取 $γ = 0.05, 0.01, 0.005$ .
- 观察到初期下降速度很快, 但是后面会进入平台期. 并且根据 $γ$ 的不同, 平台期的水平也不同. 由于 $lim sup_{k \to \infty} (f_{best}^{(k)} - f^{*}) \leq \frac{G γ}{2},$ 因此 $γ$ 越小, 平台期的水平越低, 但下降速度也越慢.
  
  Figure: Fixed-step subgradient method comparison.
衰退步长: $x^{(k + 1)} = x^{(k)} - α_{k} g^{(k)}$ , 分别取 $α_{k} = 0.1/ k, 1/ k, 1/ k, 10/ k$ .
- 观察到不同常数系数差异巨大: 系数过大前期抖动更明显, 过小则整体太慢. 这也说明 subgradient 对步长非常敏感, 调参是主要成本. 此外, 衰减型相比于固定步进, 下降速度更慢, 但没有明显的平台期, 这也符合理论分析.
  
  Figure: Diminishing-step subgradient method comparison.

3.3 Polyak: Optimal Step Size when $f^{*}$ is Known

在理想分析中, $f^{*}$ 是已知的, 因此可以选择如下的 Polyak 步长:

t_{k + 1} = \frac{f ( x ^{(k)} ) - f ^{*}}{∥ g ^{(k)} ∥ _{2}^{2}}, k = 0, 1, 2, \dots

Polyak 的更新思想很简单: 利用当前的函数值和最优值之间的差距来动态调整步长, 使得每次迭代都能最大程度地减少当前点和最优点之间的距离. 然而, 由于 $f^{*}$ 在实际问题中通常是未知的, 因此 Polyak 的步长虽然在理论上是最优的, 但在实践中很难直接使用.
回顾在之前的基本不等式中, 利用 subgradient 的定义, 可以得到:
$∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} \leq ∥ x^{(k)} - x^{*} ∥_{2}^{2} - 2 t_{k} [f (x^{(k)}) - f (x^{*})] + t_{k}^{2} ∥ g^{(k)} ∥_{2}^{2}$
而 Polyak 的步长恰好为使得 RHS 最小的步长, 即其最大程度控制了下一次迭代位置和最优点之间的距离.
将该最优步长代入, 可得不等式:
$∥ x^{(k + 1)} - x^{*} ∥_{2}^{2} \leq ∥ x^{(k)} - x^{*} ∥_{2}^{2} - \frac{[ f ( x ^{(k)} ) - f ( x ^{*} ) ] ^{2}}{∥ g ^{(k)} ∥ _{2}^{2}}$
- 该式立刻保证 $∥ x^{(k + 1)} - x^{*} ∥_{2} \leq ∥ x^{(k)} - x^{*} ∥_{2}$ , 从而保证了每次迭代都不会使得当前点和最优点之间的距离增加.
- 令 $k = 0, 1, 2, \dots$ , 将上述不等式进行迭代展开, 可以得到:
  $i = 0 \sum k \frac{[ f ( x ^{(i)} ) - f ( x ^{*} ) ] ^{2}}{∥ g ^{(i)} ∥ _{2}^{2}} \leq ∥ x^{(0)} - x^{*} ∥_{2}^{2}$
- 再分别利用 $f$ 的 Lipschitz 连续性 $∥ g^{(i)} ∥_{2} \leq G$ 和 $∥ x^{(0)} - x^{*} ∥_{2} \leq R$ 的假设, 可以得到:
  $i = 0 \sum k [f (x^{(i)}) - f (x^{*})]^{2} \leq G^{2} R^{2}$
  即证 $f (x^{(k)}) ⟶ k \to \infty f (x^{*})$ .

在实践中, 有时可以通过 Estimated Polyak 步长来近似 Polyak 步长. 具体地, 用目前为止观测到的最优值 $f (x_{best}^{(k)})$ 来近似 $f^{*}$ :

f (x_{best}^{(k)}) = 0 \leq i \leq k min f (x^{(i)}) ⟹ \hat{f}_{k}^{*} := f (x_{best}^{(k)}) - γ_{k} .

其中 $γ_{k}$ 是一个小的正数避免止步长为零. $γ_{k}$ 往往也会选择满足 Robbins-Monro 条件的衰减步长 (即 $\sum_{k = 0}^{\infty} γ_{k} = \infty$ 和 $\sum_{k = 0}^{\infty} γ_{k}^{2} < \infty$ ), 以保证其在理论上能够收敛到最优值, 例如 $γ_{k} = \frac{c}{k + 1}$ .
可以证明, 估计的历史最优值会逐渐逼近最优值.

3.4 General Convergence Result

对于一般的一阶非光滑算法:

x^{(k)} \in x^{(0)} + span {g^{(0)}, g^{(1)}, \dots, g^{(k - 1)}},

对于 weak oracle (查询一次, 只能得到函数值 $f (x)$ 和一阶 $\partial f (x)$ 这类有限信息, 没有更强的二阶信息或全局结构), 此时有定理保证对于任何 $k \leq n - 1$ 及任意初始点 $x^{(0)}$ , 都存在一个目标函数使得

f (x^{(k)}) - f^{*} \geq \frac{GR}{2 ( 1 + k )}

该定理表明, 在最坏的情况下, 任何一阶非光滑优化算法在 $k$ 次迭代后都无法保证其函数值与最优值之间的差距小于 $\frac{GR}{2 ( 1 + k )}$ . 这也说明了 subgradient method 的 $O (\frac{1}{k})$ 的收敛速率是最优的.

不过, 该定理实在说明在一般情况下的收敛水平. 对于具有特殊结构的非光滑优化问题, 可能存在更快的算法. 例如考虑如下的 composite 结构:

x min f (x) = g (x) + h (x)

$g$ 是一个凸且可微 (通常还进一步假设其梯度是 Lipschitz 连续的) 的函数
$h$ 是一个凸但不可微的函数, 但其相对容易计算的此时可以通过利用这些特殊结构将效率提升为 $O (\frac{1}{k})$ , 例如 Proximal Gradient Method.

4. Further Applications of Subgradient Methods

4.1 Alternating Projections

考虑求解凸集交的问题. 这里将说明此类问题的对应解决方法 (即 alternating projections) 是 subgradient method 的一个特殊实例.

问题的叙述为:
$find x \in C = i = 1 ⋂ m C_{i}$
其中 $C_{i}$ 是 $R^{n}$ 中的凸集.
可通过如下方法将问题转化为一个非光滑优化问题:
- 定义投影点 $Proj_{C_{i}} (x) := ar g min_{y \in C_{i}} ∥ x - y ∥_{2}$ . 定义点 $x$ 到集合 $C_{i}$ 的距离为 $f_{i} (x) = dist (x, C_{i}) := min_{y \in C_{i}} ∥ x - y ∥_{2} = ∥ x - Proj_{C_{i}} (x) ∥_{2}$ .
- 注意到 $x \in C$ 当且仅当 $f_{i} (x) = 0$ 对于所有 $i$ 都成立, 因此可以将原问题转化为如下的非光滑优化问题:
  $x min f (x) = 1 \leq i \leq m max f_{i} (x)$
由于 $f_{i}$ 是 convex 的, 因此 $f$ 也是 convex 的. 因此可以通过 subgradient method 来进行优化.
- 计算每个分量的 subgradient: 对于集合 $C_{j}$ 及点 $x$ , 其距离为 $d_{j} (x) := dist (x, C_{j}) = ∥ x - Proj_{C_{j}} (x) ∥_{2}$ .
  - 当 $x \in / C_{j}$ 时, $d_{j} (x) > 0$ , 此时 $g_{j} = \frac{x - Proj _{C_{j}} ( x )}{∥ x - Proj _{C_{j}} ( x ) ∥ _{2}}$ 是 $f_{j}$ 在 $x$ 处的 subgradient.
  - 当 $x \in C_{j}$ 时, $d_{j} (x) = 0$ , 此时 $g_{j} = 0$ 是 $f_{j}$ 在 $x$ 处的 subgradient.
- 因此对于 $f (x) = max_{1 \leq i \leq m} f_{i} (x)$ , 记 $I (x) = {i : f_{i} (x) = f (x)}$ 为最大值对应的索引集合, 则
  $\partial f (x) = conv i \in I (x) ⋃ \partial f_{i} (x)$
进而 subgradient method 的更新公式为:
$x^{(k + 1)} = x^{(k)} - f (x^{(k)}) \frac{x ^{(k)} - Proj _{C_{j}} ( x ^{(k)} )}{∥ x ^{(k)} - Proj _{C_{j}} ( x ^{(k)} ) ∥ _{2}} = x^{(k)} - ∥ x^{(k)} - Proj_{C_{j}} (x^{(k)}) ∥_{2} \frac{x ^{(k)} - Proj _{C_{j}} ( x ^{(k)} )}{∥ x ^{(k)} - Proj _{C_{j}} ( x ^{(k)} ) ∥ _{2}} = x^{(k)} - (x^{(k)} - Proj_{C_{j}} (x^{(k)})) = Proj_{C_{j}} (x^{(k)}) .$

因此, 在每次迭代中, subgradient method 都会将当前点 $x^{(k)}$ 投影到距离其最远的集合 $C_{j}$ 上. 这就是 alternating projections 的核心思想. 通过不断地交替投影, 可以逐渐逼近交集 $C$ 中的一个点.

Figure: Alternating projections.

4.2 Projected Subgradient Method

考虑非光滑凸有约束优化问题:

x min f (x) s.t. x \in C,

由于约束条件的存在, 直接进行 subgradient method 的更新可能会导致迭代点 $x^{(k)}$ 不满足约束条件. 因此, 可以通过在每次迭代后进行投影来保证迭代点始终满足约束条件. 具体地, 其更新公式为:

x^{(k + 1)} = Proj_{C} (x^{(k)} - t_{k} g^{(k)}), g^{(k)} \in \partial f (x^{(k)})

其中 $Proj_{C} (z) = ar g min_{y \in C} ∥ y - z ∥_{2}$ 是将点 $z$ 投影到集合 $C$ 上的操作.

只要这个投影是便于计算的, 那么 projected subgradient method 就是一个非常实用的算法. 其步长的选择规则等也与之前的无约束情况类似, 例如固定步长、衰减步长等.

OptOpt

Explorer

Lecture 07 · Subgradient Methods

1. Introduction & Motivation

2. Subgradient Algorithm

2.1 Step Size Selection

3. Convergence Analysis

3.1 Assumptions

3.2 Basic Inequality & Convergence Analysis

3.3 Polyak: Optimal Step Size when $f^{*}$ is Known

3.4 General Convergence Result

4. Further Applications of Subgradient Methods

4.1 Alternating Projections

4.2 Projected Subgradient Method

Graph View

Table of Contents

OptOpt

Explorer

Lecture 07 · Subgradient Methods

1. Introduction & Motivation

2. Subgradient Algorithm

2.1 Step Size Selection

3. Convergence Analysis

3.1 Assumptions

3.2 Basic Inequality & Convergence Analysis

3.3 Polyak: Optimal Step Size when f∗ is Known

3.4 General Convergence Result

4. Further Applications of Subgradient Methods

4.1 Alternating Projections

4.2 Projected Subgradient Method

Graph View

Table of Contents

3.3 Polyak: Optimal Step Size when $f^{*}$ is Known