Lecture 08 · Proximal Gradient Descent

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: 最优化：建模、算法与理论，刘浩洋等，第 8.1 节、第 8.3 节.

1. Proximal Gradient Descent

1.1 Decomposable Functions (Composite Objective)

在统计建模中, 目标函数经常能够分解成两个部分的和, 其中一个部分是光滑的, 另一个部分是非光滑的. 例如, Lasso 回归中的目标函数可以分解为平方损失函数(光滑)和 L1 正则化项(非光滑). 形式化地, (暂时只考虑凸函数) 我们可以将目标函数表示为:

F (x) = ϕ (x) + h (x)

$ϕ$ 是光滑凸函数, 不妨令 $dom (ϕ) = R^{n}$ . (更一般地, 只需 $ϕ$ 在算法迭代点所在区域可微且 $\nabla ϕ$ 满足 Lipschitz 条件; 若 $ϕ$ 的定义域带来约束, 可将对应指示函数并入 $h$ .)
$h$ 是非光滑的凸函数, 但具有简单的结构, 使得我们能够高效地计算其近端算子(proximal operator).

在处理这样的优化问题时传统的梯度下降方法可能无法直接应用, 因为 $h$ 的非光滑性会导致梯度不存在; 而若直接使用次梯度方法, 则可能会导致收敛速度较慢.

因此我们需要一种新的优化方法来处理这种分解结构的目标函数, 这就是近端梯度下降(Proximal Gradient Descent) 方法. 其对于光滑的部分 $ϕ$ 使用梯度信息, 对于非光滑的部分 $h$ 则利用其近端算子来进行优化.

回顾一下, 传统的梯度下降方法在每一步迭代中更新参数 $x$ 的方式为: $x^{+} = x - t Δ x$ . 我们选择 $Δ x = \nabla f (x)$ , 是因为对 $f (z)$ 在 $x$ 处做一阶近似并加上二次正则后, 有:

f (z) \approx f (x) + \nabla f (x)^{⊤} (z - x) + \frac{1}{2 t} ∥ z - x ∥^{2}

其中, 二次项是相当于将泰勒展开中的二次项 $\frac{1}{2} (z - x)^{⊤} \nabla^{2} f (x) (z - x)$ 用 $\frac{1}{t} I \approx \nabla^{2} f (x)$ 来近似的结果.
也可理解为: 给一阶线性化模型加上一个强凸的 proximal 正则项, 从而得到步长为 $t$ 的显式更新.
而 $Δ x = \nabla f (x)$ 的选择使得 $x^{+}$ 成为上述近似目标函数的最小值: $x^{+} = ar g min_{z} f (x) + \nabla f (x)^{⊤} (z - x) + \frac{1}{2 t} ∥ z - x ∥^{2}$ .

在当前的 Decomposable/Composite Objective 设置中, 先区分原问题的全局最优点与一步更新点:

x^{*} = ar g z min [ϕ (z) + h (z)] .

在当前点 $x$ 处定义局部上界模型(surrogate)

x^{+} := ar g z min Q_{t} (z, x), Q_{t} (z, x) := ϕ (x) + \nabla ϕ (x)^{⊤} (z - x) + \frac{1}{2 t} ∥ z - x ∥^{2} + h (z) .

对 $Q_{t} (z, x)$ 做配方并去掉与 $z$ 无关项, 可得

x^{+} = ar g z min [h (z) + \frac{1}{2 t} ∥ z - (x - t \nabla ϕ (x)) ∥^{2}] = prox_{t h} (x - t \nabla ϕ (x)) .

这个更新步骤的核心思想是: 在每次迭代中, 首先对光滑部分 $ϕ$ 进行梯度下降的更新, 得到一个临时变量 $x^{'} = x - t \nabla ϕ (x)$ ; 然后通过最小化包含非光滑部分 $h$ 的二次近似目标函数来得到新的参数 $x^{+}$ .

1.2 Proximal Operator

事实上, 上述推导的最后一步, 若将 $x - t \nabla ϕ (x)$ 当作一个新的输入, 那么这就是一个在给定非光滑函数 $h$ 的情况下, 进行近端映射的过程. 即:

x^{+} := prox_{t h} (x - t \nabla ϕ (x)) = ar g z min [\frac{1}{2 t} ∥ z - (x - t \nabla ϕ (x)) ∥^{2} + h (z)]

Definition (近端算子). 对于一个凸函数 $h : R^{n} \to (- \infty, + \infty]$ (proper, closed, convex), 其近端算子 $prox_{h} : R^{n} \to R^{n}$ 定义为:

prox_{h} (x) = ar g z min [\frac{1}{2} ∥ z - x ∥^{2} + h (z)]

其中, $x$ 是输入向量, $z$ 是优化变量, 与 $x$ 在同一空间中. 该算子相当于在 $x$ 的基础上进行一个平滑的调整, 使得调整后的点能够在最小化非光滑函数 $h$ 的同时尽可能接近 $x$ .

其具有如下性质: 对于适当的闭凸函数 $h$ :

对任意 $x \in R^{n}$ , $prox_{h} (x)$ 都是存在且唯一的.
- 这保证了近端梯度下降方法在每次迭代中都能够得到一个明确的更新结果.
$u = prox_{h} (x)$ 等价于 $x - u \in \partial h (u)$ , 其中 $\partial h (u)$ 是 $h$ 在 $u$ 处的次微分.
- 近端算子所得到的点 $u$ 与输入点 $x$ 之间的差异正好对应于 $h$ 在 $u$ 处的次梯度信息.
Proof of the prox/subgradient equivalence
- 若已知 $u = prox_{h} (x)$ , 则 $u$ 是以下优化问题的最小值: $min_{v} ψ (v) := \frac{1}{2} ∥ v - x ∥^{2} + h (v)$ . 因此 $0 \in \partial ψ (u) = u - x + \partial h (u)$ , 从而 $x - u \in \partial h (u)$
- 若 $x - u \in \partial h (u)$ , 则由次梯度定义可知 $h (v) \geq h (u) + (x - u)^{⊤} (v - u)$ , 从而
  $h (v) + \frac{1}{2} ∥ v - x ∥^{2} \geq h (u) + (x - u)^{⊤} (v - u) + \frac{1}{2} ∥ v - x ∥^{2} = h (u) + \frac{1}{2} ∥ u - x ∥^{2} + \frac{1}{2} ∥ v - u ∥^{2} \geq h (u) + \frac{1}{2} ∥ u - x ∥^{2},$
  从而 $u = prox_{h} (x)$ .
$□$

进一步, 用 $t > 0$ 来缩放函数 $h$ , 则有:

Definition (缩放的近端算子). 对于一个凸函数 $h : R^{n} \to (- \infty, + \infty]$ 以及一个正标量 $t > 0$ , 其缩放的近端算子 $prox_{t h} : R^{n} \to R^{n}$ 定义为:

prox_{t h} (x) = ar g z min [h (z) + \frac{1}{2 t} ∥ z - x ∥^{2}]

该算子与未缩放的近端算子类似, 但在优化目标中对函数 $h$ 进行了缩放, 这在实际应用中可以调整近端映射的强度.
与 $ar g min_{z} [\frac{1}{2} ∥ z - x ∥^{2} + t h (z)]$ 的写法完全等价 (只差一个正数倍缩放).
上述和次梯度的关系同样成立: $u = prox_{t h} (x)$ 等价于 $\frac{x - u}{t} \in \partial h (u)$ .

Example ( $ℓ_{1}$ 的 prox 算子). 对于 $h (x) = ∥ x ∥_{1}$ 其中 $x \in R^{n}$ 及 $t > 0$ , 其 prox 算子 $u = prox_{t h} (x)$ 的计算结果为:

prox_{t h} (x) = sign (x) ⊙ max {∣ x ∣ - t, 0}

1.3 Proximal Gradient Descent Algorithm

对于可分解的凸优化问题:

x \in R^{n} min F (x) = ϕ (x) + h (x)

其中 $ϕ$ 是光滑凸函数, $h$ 是非光滑凸函数. 我们可以通过近端梯度下降算法来求解该问题.
事实上, 对于含约束的优化问题同样也可以令 $h (x) = δ_{C} (x)$ (其中 $C$ 为非空闭凸集) 来将约束条件隐式地包含在非光滑函数中, 从而使得近端梯度下降算法同样适用.

Proximal Gradient Descent 的迭代更新步骤如下:

初始化: 选择一个初始点 $x^{(0)} \in R^{n}$ 和一个步长参数 $t_{0} > 0$ .
迭代更新: 对于 $k = 0, 1, 2, \dots$ 进行以下更新:
$x^{(k + 1)} = prox_{t_{k} h} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)}))$
- 其中, $x^{(k)}$ 是当前迭代的参数, $\nabla ϕ (x^{(k)})$ 是光滑部分 $ϕ$ 在 $x^{(k)}$ 处的梯度, $t_{k}$ 是步长参数且同样可以设置为常数或通过线搜索等方法自适应调整, $prox_{t_{k} h}$ 是非光滑部分 $h$ 的缩放近端算子.

当 $h (x) = 0$ 时, 该算法退化为传统的梯度下降方法:
$x^{(k + 1)} = x^{(k)} - t_{k} \nabla ϕ (x^{(k)})$
当 $h (x) = δ_{C} (x)$ 时, 该算法退化为投影梯度下降方法:
$x^{(k + 1)} = Proj_{C} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)}))$

观察上述迭代更新, 其还可以等价表述为:

x^{(k + 1)} = prox_{t_{k} h} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)})) = x^{(k)} - t_{k} \cdot \frac{x ^{(k)} - prox _{t_{k} h} ( x ^{(k)} - t _{k} \nabla ϕ ( x ^{(k)} ))}{t _{k}} := x^{(k)} - t_{k} G_{t_{k}} (x^{(k)}) = x^{(k)} - t_{k} \nabla ϕ (x^{(k)}) - t_{k} g^{(k)}

其中第三个等式中
$G_{t_{k}} (x^{(k)}) = \frac{x ^{(k)} - prox _{t_{k} h} [ x ^{(k)} - t _{k} \nabla ϕ ( x ^{(k)} )]}{t _{k}}$
被称为近端梯度映射(proximal gradient mapping).
- 其在某种意义上可以看作是一个综合了光滑部分梯度信息和非光滑部分次梯度信息的复合梯度, 其作用也相当于传统梯度下降法中的搜索方向.
- Proximal Gradient Mapping 与次梯度的关系为:
  $G_{t_{k}} (x^{(k)}) - \nabla ϕ (x^{(k)}) \in \partial h (x^{(k + 1)}) = \partial h (x^{(k)} - t_{k} G_{t_{k}} (x^{(k)})) (†)$
- 此外 $G_{t_{k}} (x^{(k)})$ 还具有如下性质: $G_{t_{k}} (x^{(k)}) = 0$ 当且仅当 $x^{(k)}$ 是 $F (x) = ϕ (x) + h (x)$ 的一个最优解.
第四个等式也显式地展示了近端梯度下降相当于对光滑部分进行梯度下降的同时, 对非光滑部分进行隐式梯度下降. 推导如下:
- 根据更新规则 $x^{(k + 1)} = prox_{t_{k} h} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)})) := prox_{t_{k} h} (x^{'})$ 以及 prox 算子与次梯度的关系, 可知: $x^{'} - x^{(k + 1)} \in t_{k} \partial h (x^{(k + 1)})$
- 从而存在 $g^{(k)} \in \partial h (x^{(k + 1)})$ 使得 $x^{'} - x^{(k + 1)} = t_{k} g^{(k)}$ , 即
  $x^{(k + 1)} = x^{(k)} - t_{k} \nabla ϕ (x^{(k)}) - t_{k} g^{(k)}$

2. Examples

2.1 ISTA for Lasso Regression

给定 $y \in R^{n}$ 和 $X \in R^{n \times p}$ , Lasso 回归的目标函数为:

β \in R^{p} min ϕ (β) \frac{1}{2} ∥ y - Xβ ∥_{2}^{2} + h (β) λ ∥ β ∥_{1}

其中 $ϕ (β) = \frac{1}{2} ∥ y - Xβ ∥_{2}^{2}$ 是光滑凸函数, $h (β) = λ ∥ β ∥_{1}$ 是非光滑凸函数.
利用 proximal gradient descent 方法, 首先分别求解梯度与近端算子:
- $\nabla ϕ (β) = X^{⊤} (Xβ - y)$
- $prox_{t h} (β) = sign (β) ⊙ max {∣ β ∣ - t λ, 0} := S_{t λ} (β)$ , 其中 $S_{t λ} (\cdot)$ 是软阈值函数(soft-thresholding function).
因此, proximal gradient descent 的迭代更新步骤为:
$β^{(k + 1)} = S_{t λ} (β^{(k)} - t X^{⊤} (X β^{(k)} - y))$
该步骤也可以化作如下分步进行的形式:
- 首先计算一个临时变量 $β^{'} = β^{(k)} - t X^{⊤} (X β^{(k)} - y)$ , 这相当于对光滑部分 $ϕ$ 进行梯度下降的更新.
- 然后对 $β^{'}$ 进行软阈值处理 $β^{(k + 1)} = S_{t λ} (β^{'}) = sign (β^{'}) ⊙ max {∣ β^{'} ∣ - t λ, 0}$ , 这相当于对非光滑部分 $h$ 进行近端映射的处理.
该算法被称为迭代软阈值算法(Iterative Soft-Thresholding Algorithm, ISTA), 是一种求解 Lasso 回归问题的经典方法.

2.2 Low-rank Matrix Completion

给定一个矩阵 $M \in R^{m \times n}$ 以及一个索引集合 $Ω \subseteq {1, \dots, m} \times {1, \dots, n}$ 表示已知的矩阵元素索引, 低秩矩阵补全的目标函数为:

X \in R^{m \times n} min subject to rank (X) X_{ij} = M_{ij}, \forall (i, j) \in Ω

该优化问题进一步可以通过 Nuclear Norm 的松弛来转化为如下形式:

X \in R^{m \times n} min subject to ∥ X ∥_{*} X_{ij} = M_{ij}, \forall (i, j) \in Ω

可以证明该形式是一个凸优化问题.

若进一步考虑到观测数据中可能存在噪声, 则可以将约束条件松弛为一个正则项, 从而得到如下优化问题:

X \in R^{m \times n} min μ ∥ X ∥_{*} + \frac{1}{2} (i, j) \in Ω \sum (X_{ij} - M_{ij})^{2} = X \in R^{m \times n} min h (X) μ ∥ X ∥_{*} + ϕ (X) \frac{1}{2} ∥ P ⊙ (X - M) ∥_{F}^{2}

其中 $μ > 0$ 是一个正则化参数, 用于平衡核范数正则项与数据拟合项之间的权重. $P_{ij} = 1$ 当 $(i, j) \in Ω$ 时, 否则 $P_{ij} = 0$ . $⊙$ 表示元素级乘法. $∥ \cdot ∥_{F}$ 是 Frobenius 范数, 定义为 $∥ A ∥_{F} = \sum_{i, j} A_{ij}^{2}$ .
该优化问题同样可以通过 proximal gradient descent 方法来求解:
- $\nabla ϕ (X) = P ⊙ (X - M)$
- $prox_{t_{k} h} (Y) = U \cdot Diag ((d - t_{k} μ)_{+}) \cdot V^{⊤}$ , 其中 $Y = U \cdot Diag (d) \cdot V^{⊤}$ 是 $Y$ 的奇异值分解(SVD), 且 $(a)_{+} := max {a, 0}$ 对向量逐元素作用.
因此, proximal gradient descent 的迭代更新步骤为:

Y^{(k)} Y^{(k)} X^{(k + 1)} = X^{(k)} - t_{k} \nabla ϕ (X^{(k)}) = X^{(k)} - t_{k} (P ⊙ (X^{(k)} - M)), = U^{(k)} \cdot Diag (d^{(k)}) \cdot (V^{(k)})^{⊤}, = U^{(k)} \cdot Diag ((d^{(k)} - t_{k} μ)_{+}) \cdot (V^{(k)})^{⊤} .

3. Backtracking Line Search for Proximal Gradient Descent

对于 proximal gradient descent 方法, backtracking line search 同样成立, 只不过其搜索对象是分解后光滑部分 $ϕ$ 的梯度.

整体而言, 给定 $ρ \in (0, 1)$ 及初始化 $t_{0} > 0$ , backtracking line search 的步骤如下:

先计算
$x^{+} (t) = prox_{t h} (x - t \nabla ϕ (x)), G_{t} (x) = \frac{x - x ^{+} ( t )}{t} .$
检查条件
$ϕ (x - t \cdot G_{t} (x)) \leq ϕ (x) + (\nabla ϕ (x))^{⊤} (- t \cdot G_{t} (x)) + \frac{1}{2 t} ∥ t \cdot G_{t} (x) ∥^{2} .$
若不满足, 则令 $t \leftarrow ρt$ , 并重新计算 $x^{+} (t)$ 与 $G_{t} (x)$ 后再次检查.
等价地, 也可写成更常见的上界模型检验: $F (x^{+} (t)) \leq Q_{t} (x^{+} (t), x)$ .
$Q_{t} (z, x) := ϕ (x) + \nabla ϕ (x)^{⊤} (z - x) + \frac{1}{2 t} ∥ z - x ∥^{2} + h (z) .$
且有
$F (x^{+} (t)) \leq Q_{t} (x^{+} (t), x) ⟺ ϕ (x^{+} (t)) \leq ϕ (x) + \nabla ϕ (x)^{⊤} (x^{+} (t) - x) + \frac{1}{2 t} ∥ x^{+} (t) - x ∥^{2} .$

在搜索过程中, 由于 $G_{t} (x)$ 本身依赖于 $t$ , 每次缩步长都必须重新计算 prox 映射.

不过还需要额外指出, 在 proximal gradient descent 中, 存在比 backtracking line search 更加高效的步长选择方法.

4. Convergence Analysis

4.1 Algorithm and Assumptions

回顾完整的 proximal gradient descent 算法. 考虑如下优化问题:

x \in R^{n} min F (x) = ϕ (x) + h (x)

其中 $ϕ$ 是光滑凸函数, $h$ 是非光滑的凸函数.

Proximal gradient descent 的迭代更新步骤为:

x^{(k + 1)} = prox_{t_{k} h} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)})) := x^{(k)} - t_{k} G_{t_{k}} (x^{(k)})

其中 $G_{t_{k}} (x^{(k)}) = \frac{1}{t _{k}} (x^{(k)} - prox_{t_{k} h} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)})))$ 是 proximal gradient mapping.

在进行收敛性分析之前, 明确如下假设:

$ϕ$ 在定义域 $R^{n}$ 上是凸且其梯度 $\nabla ϕ$ 是 $L$ -Lipschitz 连续的, 即对于任意 $x, y \in R^{n}$ , 都有 $∥\nabla ϕ (x) - \nabla ϕ (y) ∥ \leq L ∥ x - y ∥$ .
$h$ 是一个适当的闭凸函数, 使得其近端算子 $prox_{t h}$ 是良好定义的.
目标函数 $F (x) = ϕ (x) + h (x)$ 的最小值 $F^{*} = F (x^{*})$ 是可达且有限的, 并在某个点 $x^{*}$ 处达到. 不过这里并不要求 $x^{*}$ 是唯一的.

4.2 Convergence Rate

在上述假设条件下, proximal gradient descent 方法的收敛性由以下定理保证:

Theorem (Proximal Gradient Descent 的收敛率). 在满足上述条件, 并给定步长 $t_{k} = t \in (0, 1/ L]$ 的情况下, 迭代序列 ${x^{(k)}}$ 满足

F (x^{(k)}) - F^{*} \leq \frac{∥ x ^{(0)} - x ^{*} ∥ ^{2}}{2 t k}

即迭代点 $x^{(k)}$ 的函数值以 $O (1/ k)$ 的速率收敛到最优值 $F^{*}$ .

Proof of the convergence rate

根据假设中的 $L$ -Lipschitz 连续性, 对 $ϕ$ 进行二阶泰勒展开的上界估计, 可得对于任意 $x, y \in R^{n}$ , 都有:
$ϕ (y) \leq ϕ (x) + \nabla ϕ (x)^{⊤} (y - x) + \frac{L}{2} ∥ y - x ∥^{2}$

令此处的 $y = x - t G_{t} (x)$ , 则有:

$ϕ (x - t G_{t} (x)) \leq ϕ (x) - t \nabla ϕ (x)^{⊤} G_{t} (x) + \frac{L t ^{2}}{2} ∥ G_{t} (x) ∥^{2}$

根据步长假设 $t \leq 1/ L$ , 可得 $\frac{L t ^{2}}{2} ∥ G_{t} (x) ∥^{2} \leq \frac{t}{2} ∥ G_{t} (x) ∥^{2}$ . 从而:

$ϕ (x - t G_{t} (x)) \leq ϕ (x) - t \nabla ϕ (x)^{⊤} G_{t} (x) + \frac{t}{2} ∥ G_{t} (x) ∥^{2}, (1)$

另一方面, 根据假设 $ϕ (x), h (x)$ 均为凸函数, 对于任意 $z \in dom (F)$ , 都有:

$ϕ (x) \leq ϕ (z) - \nabla ϕ (x)^{⊤} (z - x), (2)$

$h (x^{'}) \leq h (z) - g^{⊤} (z - x^{'})$ 其中 $g \in \partial h (x^{'})$ , $x^{'} = x - t G_{t} (x)$ . 从而若将 $x^{'}$ 代入 $h$ 的不等式中, 则有
$h (x - t G_{t} (x)) \leq h (z) - (G_{t} (x) - \nabla ϕ (x))^{⊤} (z - x + t G_{t} (x)), (3)$

其中 $g = G_{t} (x) - \nabla ϕ (x) \in \partial h (x - t G_{t} (x))$ 是根据 prox 算子与次梯度的关系得到的结果, 见 $(†)$ .

将 $(1), (2), (3)$ 三个不等式相加, 并根据 composite objective 的定义 $F (x) = ϕ (x) + h (x)$ , 经整理化简, 对任意 $z \in dom (F)$ 都有:
$F (x - t G_{t} (x)) \leq F (z) + G_{t} (x)^{⊤} (x - z) - \frac{t}{2} ∥ G_{t} (x) ∥^{2}$
若另记 $x^{+} = x - t G_{t} (x)$ , 则上式可以化作如下形式:
$F (x^{+}) \leq F (z) + G_{t} (x)^{⊤} (x - z) - \frac{t}{2} ∥ G_{t} (x) ∥^{2}$

令 $z = x$ , 则有:
$F (x^{+}) \leq F (x) - \frac{t}{2} ∥ G_{t} (x) ∥^{2}$

这表明每次迭代都会使得函数值至少下降 $\frac{t}{2} ∥ G_{t} (x) ∥^{2}$ , 从而保证了函数值的单调不增.

特别地, 令 $z = x^{*}$ , 则有:
$F (x^{+}) - F^{*} \leq G_{t} (x)^{⊤} (x - x^{*}) - \frac{t}{2} ∥ G_{t} (x) ∥^{2} = \frac{1}{2 t} (∥ x - x^{*} ∥^{2} - ∥ x - x^{*} - t G_{t} (x) ∥^{2}) = \frac{1}{2 t} (∥ x - x^{*} ∥^{2} - ∥ x^{+} - x^{*} ∥^{2})$

其中第二行的等式是通过单纯的代数整理得到的: $v^{⊤} u - \frac{t}{2} ∥ v ∥^{2} = \frac{1}{2 t} (∥ u ∥^{2} - ∥ u - t v ∥^{2})$ .

因此从 $x^{(0)}$ 开始迭代, 可以得到如下递推关系:
$F (x^{(k + 1)}) - F^{*} \leq \frac{1}{2 t} (∥ x^{(k)} - x^{*} ∥^{2} - ∥ x^{(k + 1)} - x^{*} ∥^{2})$
将上述不等式两边同时求和, 则有:
$i = 0 \sum k - 1 (F (x^{(i + 1)}) - F^{*}) \leq \frac{1}{2 t} ∥ x^{(0)} - x^{*} ∥^{2}$
从而由于 $F (x^{(i + 1)})$ 是单调不增的, 可得:
$k (F (x^{(k)}) - F^{*}) \leq i = 0 \sum k - 1 (F (x^{(i + 1)}) - F^{*}) \leq \frac{1}{2 t} ∥ x^{(0)} - x^{*} ∥^{2}$
从而得到最终的收敛率结果:
$F (x^{(k)}) - F^{*} \leq \frac{∥ x ^{(0)} - x ^{*} ∥ ^{2}}{2 t k}$

$□$

如果我们使用 backtracking line search 来选择步长, 我们可以从某个 $t = t_{0} > 0$ 开始, 通过不断缩小 $t \leftarrow ρt$ 来不断回溯, 直到满足条件:

ϕ (x - t G_{t} (x)) \leq ϕ (x) - t \nabla ϕ (x)^{⊤} G_{t} (x) + \frac{t}{2} ∥ G_{t} (x) ∥^{2}

并且每次缩放 $t$ 后都要重新计算 $x^{+} (t) = prox_{t h} (x - t \nabla ϕ (x))$ 与 $G_{t} (x)$ . 并且可以由类似的分析过程来证明, 在满足上述条件的情况下, 其收敛情况为:

F (x^{(k)}) - F^{*} \leq \frac{∥ x ^{(0)} - x ^{*} ∥ ^{2}}{2 k t}, \underline{t} := 0 \leq i \leq k - 1 min t_{i}

并且在常见 backtracking 设置下, $\underline{t}$ 可由 $min {t_{0}, ρ / L}$ 给出一个粗下界.

5. Special Cases

根据 Decomposable/Composite Objective 的组成不同, 我们还有一些特殊的优化算法可以看作是 Proximal Gradient Descent 的特例.

5.1 Projected Gradient Descent

由 Proximal Gradient Descent 的定义可知, 当非光滑部分 $h$ 是一个指示函数 $δ_{C}$ 且 $C$ 为非空闭凸集时, 其近端算子 $prox_{t h}$ 就退化为一个投影算子 $Proj_{C}$ 且解唯一. 因此, 在这种特殊情况下, Proximal Gradient Descent 就退化为传统的投影梯度下降(Projected Gradient Descent) 方法. 其迭代更新步骤为:

x^{(k + 1)} = Proj_{C} (x^{(k)} - t_{k} \nabla ϕ (x^{(k)}))

其中 $Proj_{C} (x) = ar g min_{z \in C} ∥ z - x ∥$ 是将 $x$ 投影到集合 $C$ 上的操作.
其含义即为: 在每次迭代中, 首先对光滑部分 $ϕ$ 进行梯度下降的更新, 得到一个临时变量 $x^{'} = x^{(k)} - t_{k} \nabla ϕ (x^{(k)})$ ; 然后将 $x^{'}$ 投影到约束集合 $C$ 上, 从而得到新的参数 $x^{(k + 1)}$ .

Figure: Projected gradient descent.

5.2 Proximal Point Algorithm

当光滑部分 $ϕ$ 恒为零时, 考虑如下优化问题:

x \in R^{n} min F (x)

其中 $F$ 是一个适当的闭凸函数, 并不要求其具有可微性.

对于上述优化问题, Proximal Gradient Descent 的迭代更新步骤退化为:

x^{(k + 1)} = prox_{t_{k} F} (x^{(k)}) = ar g z min [\frac{1}{2 t _{k}} ∥ z - x^{(k)} ∥^{2} + F (z)]

6. Acceleration: Nesterov’s Accelerated Gradient Method

对于优化问题

x \in R^{n} min F (x) = ϕ (x) + h (x)

使用 Proximal Gradient Descent, 如果光滑部分的函数 $ϕ$ 是 $L$ -smooth 的, 则目标函数的收敛速度为 $O (1/ k)$ . 但是, 通过一些加速技巧, 可以将收敛速度提升到 $O (1/ k^{2})$ . Nesterov 在 1983, 1988, 2005 年提出了三种改进的一阶算法. Beck 和 Teboulle 在 2008 年给出了 Nesterov 1983 算法的 Proximal Gradient 版本, 被称为 FISTA(Fast Iterative Shrinkage-Thresholding Algorithm).

6.1 FISTA Algorithm

FISTA 的算法步骤如下:

初始化: 选择一个初始点 $x^{(0)} \in R^{n}$ , 并令 $x^{(- 1)} = x^{(0)}$
迭代更新: 对于 $k = 1, 2, \dots$ 进行以下更新直到满足收敛条件:
- $v^{(k)} = x^{(k - 1)} + \frac{k - 2}{k + 1} (x^{(k - 1)} - x^{(k - 2)})$
- $x^{(k)} = prox_{t_{k} h} (v^{(k)} - t_{k} \nabla ϕ (v^{(k)}))$

其还有一种表述形式:

初始化: 选择一个初始点 $x^{(0)} \in R^{n}$ , 并令 $v^{(0)} = x^{(0)}$ . 选定加速参数 $γ_{k}$ .
迭代更新: 对于 $k = 1, 2, \dots$ 进行以下更新直到满足收敛条件:
- 计算 $y^{(k)} = (1 - γ_{k}) x^{(k - 1)} + γ_{k} v^{(k - 1)}$
- 选择 $t_{k} > 0$ , 计算 $x^{(k)} = prox_{t_{k} h} (y^{(k)} - t_{k} \nabla ϕ (y^{(k)}))$
- 计算 $v^{(k)} = x^{(k - 1)} + \frac{1}{γ _{k}} (x^{(k)} - x^{(k - 1)})$

当 $γ_{k} = \frac{2}{k + 1}$ 且步长固定时, 上述两种表述形式是等价的.

对于 FISTA 算法, 在步长 $t_{k}$ 和加速参数 $γ_{k}$ 满足如下条件的情况下 (此处 notation 以第二种表达形式为准), 其收敛率为 $O (1/ k^{2})$ :

$ϕ (x^{(k)}) \leq ϕ (y^{(k)}) + ⟨ \nabla ϕ (y^{(k)}), x^{(k)} - y^{(k)} ⟩ + \frac{1}{2 t _{k}} ∥ x^{(k)} - y^{(k)} ∥_{2}^{2}$
$γ_{1} = 1$ ; 对于 $j \geq 2$ , $\frac{( 1 - γ _{j} ) t _{j}}{γ _{j}^{2}} \leq \frac{t _{j - 1}}{γ _{j - 1}^{2}}$
$\frac{γ _{k}^{2}}{t _{k}} = O (1/ k^{2})$ .

在满足上述假设条件, 并在固定步长 $t_{k} = t \in (0, 1/ L]$ 的情况下, FISTA 迭代序列 ${x^{(k)}}$ 满足

F (x^{(k)}) - F^{*} \leq \frac{2∥ x ^{(0)} - x ^{*} ∥ ^{2}}{t ( k + 1 ) ^{2}}

特别地, 当取 $t = 1/ L$ 时, 上式退化为常见形式:

F (x^{(k)}) - F^{*} \leq \frac{2 L ∥ x ^{(0)} - x ^{*} ∥ ^{2}}{( k + 1 ) ^{2}}

6.2 Line Search for FISTA

对于 FISTA 算法, 其步长 $t_{k}$ 的选择同样可以通过 backtracking line search 来进行调整.

最基础的一个版本的 line search 过程如下:

初始化: 选择一个初始点 $x^{(0)} \in R^{n}$ , 并令 $v^{(0)} = x^{(0)}$ . 选定加速参数 $γ_{k}$ .
迭代更新: 对于 $k = 1, 2, \dots$ 进行以下更新直到满足收敛条件:
- 计算 $y^{(k)} = (1 - γ_{k}) x^{(k - 1)} + γ_{k} v^{(k - 1)}$
- 通过 line search 来选择 $t_{k}$ 并更新 $x^{(k)}$ (给定迭代起始搜索步长 $t_{k} = t_{k - 1} > 0$ , 以及缩放因子 $ρ \in (0, 1)$ ):
  - 计算 $x^{(k)} = prox_{t_{k} h} (y^{(k)} - t_{k} \nabla ϕ (y^{(k)}))$
  - 若 $ϕ (x^{(k)}) > ϕ (y^{(k)}) + ⟨ \nabla ϕ (y^{(k)}), x^{(k)} - y^{(k)} ⟩ + \frac{1}{2 t _{k}} ∥ x^{(k)} - y^{(k)} ∥_{2}^{2}$ , 则
    - 令 $t_{k} \leftarrow ρ t_{k}$ ,
    - 重复上述计算 $x^{(k)}$ 和条件检查, 直到满足条件为止.
  - 返回满足条件的 $t_{k}$ 和对应的 $x^{(k)}$ .
- 计算 $v^{(k)} = x^{(k - 1)} + \frac{1}{γ _{k}} (x^{(k)} - x^{(k - 1)})$

其问题在于: 对于第 $k$ 次迭代, 其 line search 的初始步长 $t_{k}$ 的选择总是取为 $t_{k - 1}$ , 这导致其在迭代过程中是不断缩小步长的, 从而可能会导致步长过小, 进而影响算法的收敛速度.

通过其他一些改进的 line search 方法, 可令条件 2 取等号

\frac{( 1 - γ _{k} ) t _{k}}{γ _{k}^{2}} = \frac{t _{k - 1}}{γ _{k - 1}^{2}},

等价地

t_{k - 1} γ_{k}^{2} = t_{k} γ_{k - 1}^{2} (1 - γ_{k}),

这是关于 $γ_{k}$ 的二次方程. 通过求解该方程来动态调整 $γ_{k}$ 和 $t_{k}$ , 可以在保证满足 line search 条件的同时, 使得步长 $t_{k}$ 不会过快地缩小, 从而提升算法的收敛效率.

6.3 Several Remarks on FISTA

加速方法并不是适用于所有问题的.

例如在 warm start 的情况下 (例如在求解 Lasso 路径问题 $min_{β} \frac{1}{2} ∥ y - Xβ ∥^{2} + λ ∥ β ∥_{1}$ , 其中 $λ_{1} > λ_{2} > \dots > λ_{m} > 0$ 是一系列递减的正则化参数), 由于每次迭代的初始点 $x^{(0)}$ 已经非常接近最优解, 因此加速方法可能会导致过度震荡, 从而反而降低收敛效率.
另外还比如在矩阵补全问题中, prox 的计算涉及到奇异值分解(SVD), 其计算复杂度较高. 需要区分两点:
- 若固定步长且不做回溯, ISTA 与 FISTA 的单次迭代主成本通常都由一次 prox(SVD) 主导, 基本同阶.
- 若使用 backtracking line search, 一次迭代内可能触发多次 prox(SVD) 重算, 这才会显著提高单次迭代开销.

OptOpt

Explorer

Lecture 08 · Proximal Gradient Descent

1. Proximal Gradient Descent

1.1 Decomposable Functions (Composite Objective)

1.2 Proximal Operator

1.3 Proximal Gradient Descent Algorithm

2. Examples

2.1 ISTA for Lasso Regression

2.2 Low-rank Matrix Completion

3. Backtracking Line Search for Proximal Gradient Descent

4. Convergence Analysis

4.1 Algorithm and Assumptions

4.2 Convergence Rate

5. Special Cases

5.1 Projected Gradient Descent

5.2 Proximal Point Algorithm

6. Acceleration: Nesterov’s Accelerated Gradient Method

6.1 FISTA Algorithm

6.2 Line Search for FISTA

6.3 Several Remarks on FISTA

Graph View

Table of Contents