Lecture 06 · Subgradient

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: 最优化: 建模、算法与理论, 刘浩洋等, 2.7 小节.

1. Subgradients and Subdifferentials

回顾, 对于可微且凸的函数 $f : R^{n} \to R$ , 其在任意点 $x$ 处的梯度 $\nabla f (x)$ 都满足以下不等式:

f (y) \geq f (x) + \nabla f (x)^{⊤} (y - x), \forall y \in R^{n} .

因此, $\nabla f (x)$ 可以被看作是函数 $f$ 在点 $x$ 处的一个全局下界. 但是, 当函数 $f$ 不可微时, 其在某些点处可能没有梯度. 这时, 我们可以引入次梯度的概念来推广梯度的定义.

Definition (Subgradient). 对于一个凸函数 $f : R^{n} \to R$ , 如果存在一个向量 $g \in R^{n}$ 满足以下不等式:

f (y) \geq f (x) + g^{⊤} (y - x), \forall y \in R^{n},

则称 $g$ 是函数 $f$ 在点 $x$ 处的一个次梯度.

Example (Absolute Value). 考虑函数 $f (x) = ∣ x ∣$ , 其在 $x = 0$ 处不可微. 其在任意 $x \neq = 0$ 处的次梯度为 $g = sign (x)$ , 而在 $x = 0$ 处的次梯度为 $g \in [- 1, 1]$ 中的任意值.

Definition (Subdifferential). 对于一个凸函数 $f : R^{n} \to R$ , 定义其在点 $x$ 处的次微分为所有次梯度的集合, 记为 $\partial f (x)$ :

\partial f (x) = {g \in R^{n} : f (y) \geq f (x) + g^{⊤} (y - x), \forall y \in R^{n}} .

Theorem (Existence of Subgradients). 次梯度对任意凸函数在定义域中的内点一定存在. 即对于任意凸函数 $f$ , 其定义域为 $dom (f)$ . 给定任意 $x_{0} \in int (dom (f))$ , 则 $\partial f (x_{0}) \neq = \emptyset$ .

Proof of existence of subgradients

令 $C = epi (f) = {(x, t) \in R^{n} \times R : t \geq f (x)}$ . 由于 $f$ 是凸函数, 则 $epi (f)$ 是一个凸集. 又由于 $x_{0} \in int (dom (f))$ , 则 $(x_{0}, f (x_{0}))$ 是 $epi (f)$ 的一个边界点.

回顾 Supporting Hyperplane Theorem: 对于一个凸集 $C \subseteq R^{n}$ 和边界点 $x_{0} \in \partial C$ , 存在一个超平面 $H := {x : g^{⊤} (x - x_{0}) = 0}$ , 使得 $C$ 完全位于 $H$ 的一侧, 即 $g^{⊤} (x - x_{0}) \leq 0$ 对任意 $x \in C$ 都成立.

因此, 根据 Supporting Hyperplane Theorem, 存在一个不全为 $0$ 的向量 $g := [g_{x} g_{t}] \in R^{n + 1}$ 使得对任意 $(x, t) \in epi (f)$ , 都有:
$[g_{x} g_{t}]^{⊤} ([x t] - [x_{0} f (x_{0})]) = g_{x}^{⊤} (x - x_{0}) + g_{t} (t - f (x_{0})) \leq 0.$
整理即有:
$g_{x}^{⊤} (x - x_{0}) \leq g_{t} (f (x_{0}) - t), \forall (x, t) \in epi (f) .$

首先判断上述不等式中 $g_{t}$ 的符号.

要使不等式对于给定的 $x_{0}$ 和由此确认的 $g$ 关于任意 $(x, t) \in epi (f)$ 都成立, 首先断言必有 $g_{t} \leq 0$ .

否则, 若 $g_{t} > 0$ , 则取 $t \to + \infty$ 时, 右侧 $g_{t} (f (x_{0}) - t) \to - \infty$ , 而左侧 $g_{x}^{⊤} (x - x_{0})$ 为固定的有限值, 不等式无法成立.

进一步还可以根据 $x_{0} \in int (dom (f))$ 的假设, 断言必有 $g_{t} < 0$ .

否则若 $g_{t} = 0$ , 则不等式变为 $g_{x}^{⊤} (x - x_{0}) \leq 0$ 对任意 $(x, t) \in epi (f)$ 都成立. 特别地, 取 $t = f (x)$ , 同样有 $g_{x}^{⊤} (x - x_{0}) \leq 0$ 对任意 $(x, f (x)) \in epi (f)$ , 即对任意 $x \in dom (f)$ 成立.

此时, 由于内点 $x_{0}$ 的性质, 在其小邻域内的点 $x := x_{0} + ϵ g_{x}$ 也属于 $dom (f)$ , 其中 $ϵ > 0$ 是一个足够小的常数. 代入上述不等式, 则有 $g_{x}^{⊤} (x_{0} + ϵ g_{x} - x_{0}) = ϵ ∥ g_{x} ∥^{2} \leq 0$ , 从而 $g_{x} = 0$ .

因此, 若 $g_{t} = 0$ , 则 $g = [g_{x} g_{t}] = 0$ , 与 $g$ 不全为 $0$ 的假设矛盾.

由于上述不等式对于任意 $(x, t) \in epi (f)$ 都成立, 特别地, 取 $t = f (x)$ , 则有:
$g_{x}^{⊤} (x - x_{0}) \leq g_{t} (f (x_{0}) - f (x)), \forall x \in dom (f) .$

由于 $g_{t} < 0$ , 上式等价于:
$(- \frac{g _{x}}{g _{t}})^{⊤} (x - x_{0}) \leq f (x) - f (x_{0}), \forall x \in dom (f) .$

因此, 定义 $g := - \frac{g _{x}}{g _{t}}$ , 则 $g$ 是函数 $f$ 在点 $x_{0}$ 处的一个次梯度, 即 $g \in \partial f (x_{0})$ .

$□$

Example (Maximum of Two Differentiable Convex Functions). 考虑函数 $f (x) = max {f_{1} (x), f_{2} (x)}$ , 其中 $f_{1}, f_{2} : R^{n} \to R$ 是两个可微凸函数. 则:

对于 $f_{1} (x) > f_{2} (x)$ 的点 $x$ , $\partial f (x) = {\nabla f_{1} (x)}$ .
对于 $f_{1} (x) < f_{2} (x)$ 的点 $x$ , $\partial f (x) = {\nabla f_{2} (x)}$ .
对于 $f_{1} (x) = f_{2} (x)$ 的点 $x$ , $\partial f (x) = conv {\nabla f_{1} (x), \nabla f_{2} (x)} = {α \nabla f_{1} (x) + (1 - α) \nabla f_{2} (x) : α \in [0, 1]}$ . 即在 $f_{1}$ 和 $f_{2}$ 的梯度之间的任意凸组合都是 $f$ 在点 $x$ 处的次梯度.

Example (Maximum of Finitely Many Differentiable Convex Functions). 上一个例子还可以进一步推广到 $n$ 个函数的最大值. 定义 $f (x) = max_{i = 1... n} f_{i} (x)$ , 其中每个 $f_{i} : R^{n} \to R$ 都是可微凸函数. 定义 active set $A (x) = {i : f_{i} (x) = f (x)}$ , 即在某点 $x$ 处达到最大值的函数索引集合 (若 $A (x)$ 只有一个元素, 则 $f$ 在点 $x$ 处可微; 否则, $f$ 在点 $x$ 处不可微). 则:

\partial f (x) = conv {\nabla f_{i} (x) : i \in A (x)} = ⎩ ⎨ ⎧ i \in A (x) \sum α_{i} \nabla f_{i} (x) : α_{i} \geq 0, i \in A (x) \sum α_{i} = 1 ⎭ ⎬ ⎫ .

Proof of the finite maximum subdifferential formula

对于任意 $α_{i} \geq 0$ 且 $\sum_{i \in A (x)} α_{i} = 1$ , 定义 $g = \sum_{i \in A (x)} α_{i} \nabla f_{i} (x)$ .

由支撑超平面定理, 对于任意 $y \in R^{n}$ 和 $i \in A (x)$ , 都有 $f_{i} (y) \geq f_{i} (x) + \nabla f_{i} (x)^{⊤} (y - x)$ .

又根据 $max$ 的性质, 对于任意 $y \in R^{n}$ : $f (y) = max_{i = 1... n} f_{i} (y) \geq \sum_{i \in A (x)} α_{i} f_{i} (y)$ .

因此, 对于任意 $y \in R^{n}$ :
$f (y) \geq i \in A (x) \sum α_{i} f_{i} (y) \geq i \in A (x) \sum α_{i} [f_{i} (x) + \nabla f_{i} (x)^{⊤} (y - x)] = i \sum α_{i} f_{i} (x) + i \in A (x) \sum α_{i} \nabla f_{i} (x)^{⊤} (y - x) := f (x) + g^{⊤} (y - x) .$

$□$

Example (Indicator Function and Normal Cone). 特别地, 考虑 indicator function $δ_{C} (x)$ , 其定义为:

δ_{C} (x) = {0, + \infty, x \in C x \in / C

其中 $C \subseteq R^{n}$ 是一个凸集. 则 $δ_{C}$ 的次微分 $\partial δ_{C} (x)$ 恰为 $C$ 在点 $x$ 处的法向量集合, 记为 $N_{C} (x)$ :

\partial δ_{C} (x) := N_{C} (x) = {g \in R^{n} : g^{⊤} (y - x) \leq 0, \forall y \in C} .

Proof of the indicator-function subdifferential

由次梯度定义, 对于任意 $g \in \partial δ_{C} (x)$ 和 $y \in C$ , 有:
$δ_{C} (y) \geq δ_{C} (x) + g^{⊤} (y - x) .$
其中假设 $x \in C$ .

如果 $y \in / C$ , 则 $δ_{C} (y) = + \infty$ . 此时不等式变为 $\infty \geq 0 + g^{⊤} (y - x)$ , 恒成立.

如果 $y \in C$ , 则 $δ_{C} (y) = 0$ . 此时不等式变为 $0 \geq 0 + g^{⊤} (y - x)$ , 即 $g^{⊤} (y - x) \leq 0$ , 即要求 $g^{⊤} (y - x) \leq 0$ 对任意 $y \in C$ 都成立. 记为 $g \in N_{C} (x)$ .

$□$

在几何上, $y - x$ 表示从 $x$ 指向集合内任意点 $y$ 的向量, $g^{⊤} (y - x) \leq 0$ 表示 $g$ 与 $y - x$ 之间的夹角大于等于 $9 0^{\circ}$ , 即 $g$ 是指向集合外部的法向量.

2. Properties of Subgradients

Property 1. 次微分在凸函数定义域内为凸闭集, 在定义域内点为非空有界集. 对于凸函数 $f$ : (1) 对任意 $x \in dom (f)$ , 次微分 $\partial f (x)$ 是一个凸且闭的集合, 但可能为空; (2) 对于任意 $y \in int (dom (f))$ , $\partial f (y)$ 非空且有界.

Property 2. 凸函数若某在某点可微, 则其梯度是唯一的次梯度. 如果 $f$ 在点 $x \in int (dom (f))$ 处可微, 则 $\partial f (x) = {\nabla f (x)}$ .

Proof of uniqueness of the subgradient at differentiable points

首先, 由于 $f$ 在点 $x$ 处可微, 则梯度 $\nabla f (x)$ 满足次梯度定义.

下证明其唯一性. 假设存在另一个次梯度 $g \in \partial f (x)$ , 且 $g \neq = \nabla f (x)$ .

由次梯度定义, 对任意 $v \in R^{n}$ , 考虑满足 $y = x + t v \in dom (f)$ , 其中 $t > 0$ 的点, 则有:
$f (x + t v) \geq f (x) + g^{⊤} (t v) = f (x) + t g^{⊤} v .$

继续变形, 有
$\frac{f ( x + t v ) - f ( x ) - t \nabla f ( x ) ^{⊤} v}{t ∥ v ∥} \geq \frac{t g ^{⊤} v - t \nabla f ( x ) ^{⊤} v}{t ∥ v ∥} .$

取 $v = g - \nabla f (x) \neq = 0$ , 则上式变为
$\frac{f ( x + t v ) - f ( x ) - t \nabla f ( x ) ^{⊤} v}{t ∥ v ∥} \geq \frac{t ( g - \nabla f ( x ) ) ^{⊤} v}{t ∥ v ∥} = \frac{t ∥ v ∥ ^{2}}{t ∥ v ∥} = ∥ v ∥ > 0.$

取 $t \to 0$ , 根据可微性的定义, 上式左侧趋近于 $0$ , 与右侧 $∥ v ∥ > 0$ 矛盾. 因此, 不存在另一个次梯度 $g \neq = \nabla f (x)$ , 即 $\partial f (x) = {\nabla f (x)}$ .

$□$

Property 3. 次梯度对于凸函数是“单调递增”的. 对于任意凸函数 $f$ 和任意 $x, y \in dom (f)$ , 任意 $g_{x} \in \partial f (x)$ 和 $g_{y} \in \partial f (y)$ 都满足:

(g_{y} - g_{x})^{⊤} (y - x) \geq 0.

该性质在一元的特殊情况下很好理解. 例如对于 $f (x) = exp (x)$ , 其次梯度为 $\partial f (x) = {exp (x)}$ , 则对于任意 $x < y$ , 都有 $exp (y) - exp (x) > 0$ 和 $y - x > 0$ , 从而 $(exp (y) - exp (x)) (y - x) > 0$ .

Property 4. 次梯度的图象 ${(x, g) : g \in \partial f (x)}$ 是闭集. 对于任意闭凸函数 $f$ , 考虑序列 ${x_{k}}$ 且 $x_{k} \to \overset{x}{ˉ}$ , 对应 $g_{k} \in \partial f (x_{k})$ 且 $g_{k} \to \overset{g}{ˉ}$ , 则 $\overset{g}{ˉ} \in \partial f (\overset{x}{ˉ})$ .

Property 5. 凸函数 $f (x)$ 关于方向 $d$ 的方向导数 $\partial f (x; d)$ 是 $f$ 在 $x$ 出所有次梯度与方向 $d$ 的内积的最大值. 具体地, 定义 $f$ 在点 $x$ 关于方向 $d$ 的方向导数为:

\partial f (x; d) = t \to 0^{+} lim \frac{f ( x + t d ) - f ( x )}{t} = t > 0 in f \frac{f ( x + t d ) - f ( x )}{t} .

Proof sketch of the directional-derivative characterization

由方向导数的定义:
$\partial f (x; d) = t > 0 in f \frac{f ( x + t d ) - f ( x )}{t} .$

同时又知在内点 $x$ 处, 存在次梯度 $g \in \partial f (x)$ , 使得对任意 $t > 0$ :
$f (x + t d) \geq f (x) + g^{⊤} (t d) .$

因此, 对任意 $t > 0$ :
$t > 0 in f \frac{f ( x + t d ) - f ( x )}{t} \geq t > 0 in f \frac{f ( x ) + g ^{⊤} ( t d ) - f ( x )}{t} = g^{⊤} d .$

上述即说明方向导数是任意次梯度与方向 $d$ 的内积的上界. 通过进一步的分析能够证明其为上确界. 过程略.

关于次梯度, 有如下运算规则 (往往默认在内点以及各函数定义域的交集内等一般情况下):

线性组合: 对于任意 $a, b > 0$ 和凸函数 $f, g : R^{n} \to R$ , 有:
$\partial (a f + b g) (x) = a \partial f (x) + b \partial g (x) .$
Affine 变换: 若 $A \in R^{m \times n}$ 是一个矩阵, $b \in R^{m}$ 是一个向量, 则:
$\partial (f (A x + b)) = A^{⊤} \partial f (A x + b) .$
最大值: 对于 $f (x) = max_{i = 1... n} f_{i} (x)$ , 其中每个 $f_{i} : R^{n} \to R$ 都是可微凸函数, 定义 active set $A (x) = {i : f_{i} (x) = f (x)}$ , 则:
$\partial f (x) = conv {\cup_{i \in A (x)} \partial f_{i} (x)} .$
- 更一般地, 考虑 $f (x) = max_{i \in S} f_{i} (x)$ , 其中 $S$ 是任意集合 (可能是不可列等情况), 同样定义 active set $A (x) = {i \in S : f_{i} (x) = f (x)}$ , 则:
  $\partial f (x) \supseteq cl (conv {\cup_{i \in A (x)} \partial f_{i} (x)}) .$
  - 其中 $cl$ 表示闭包, 因为在某些 pathological 情况下, $\partial f (x)$ 可能包含一些极限点, 但不包含某些凸组合.
  - 当 $f_{s}$ 和 $S$ 满足了一些额外的正则化条件时, 上述包含关系可以变为等式.

3. Optimality Condition for Subgradients

首先不考虑约束, 仅考虑一个凸函数 $f : R^{n} \to R$ 的最小化问题 $min_{x} f (x)$ .

Theorem (Optimality Condition for Subgradients). 对于一个凸函数 $f : R^{n} \to R$ , 如果 $0 \in \partial f (x^{*})$ , 则 $x^{*}$ 是 $f$ 的一个全局最小点. 反之, 如果 $x^{*}$ 是 $f$ 的一个全局最小点, 则 $0 \in \partial f (x^{*})$ .

对于可微函数, 上述定理退化为 $f$ 在 $x^{*}$ 处的梯度 $\nabla f (x^{*})$ 等于 $0$ 是 $f$ 的一个全局最小点的充分必要条件. 但对于不可微函数, 上述定理提供了一个更一般的最优性条件.

进一步考虑任意凸优化问题, 此时由于约束的存在, 其最优性并不一定在全局最小点处达到. 不过仍然可以通过次梯度来刻画其局部最优点的性质. 回顾, 对于一个凸优化问题, 给定 $f$ 是凸且可微的, 则

x min s.t. f (x) x \in C

其在 $x$ 是最优点的一阶充要条件为:

\nabla f (x)^{⊤} (y - x) \geq 0, \forall y \in C .

该条件也可以通过次梯度来分析.

将上述优化问题整理为无约束优化问题的形式:
$x min f (x) + δ_{C} (x),$

其中 $δ_{C} (x)$ 是集合 $C$ 的 indicator function.

此时对于扩展后的目标函数 $f (x) + δ_{C} (x)$ , 其全局最优条件为 $0 \in \partial (f + δ_{C}) (x)$ .
- 根据次微分的线性组合规则, 上式等价于 $0 \in \partial f (x) + \partial δ_{C} (x)$ , 即存在 $g_{f} \in \partial f (x)$ 和 $g_{δ} \in \partial δ_{C} (x)$ 使得 $g_{f} + g_{δ} = 0$ .
- 又根据 $\partial δ_{C} (x) = N_{C} (x)$ , 则存在 $g_{f} \in \partial f (x) = {\nabla f (x)}$ 和 $g_{δ} \in N_{C} (x)$ 使得 $g_{f} + g_{δ} = 0$ , 即 $- \nabla f (x) \in N_{C} (x)$ .
  - 回顾 $N_{C} (x) = {g \in R^{n} : g^{⊤} (y - x) \leq 0, \forall y \in C}$ , 则 $- \nabla f (x) \in N_{C} (x)$ 等价于 $\nabla f (x)^{⊤} (y - x) \geq 0, \forall y \in C$ , 与之前的最优性条件一致.

因此, 对于任意一个凸优化问题, 我们都可以给出其最优点的一个一般性条件:

0 \in \partial f (x) + N_{C} (x) .

Example (Lasso Optimality Condition). 对于 $y \in R^{n}, X \in R^{n \times p}$ 和 $λ \geq 0$ , 考虑 Lasso 问题:

β min \frac{1}{2} ∥ y - Xβ ∥_{2}^{2} + λ ∥ β ∥_{1} .

该问题的次微分最优性条件为:
$0 \in \partial (\frac{1}{2} ∥ y - Xβ ∥_{2}^{2} + λ ∥ β ∥_{1}) = \partial (\frac{1}{2} ∥ y - Xβ ∥_{2}^{2}) + \partial (λ ∥ β ∥_{1}) = - X^{⊤} (y - Xβ) + λ \partial ∥ β ∥_{1} .$
故整理有 $X^{⊤} (y - Xβ) = λ g$ , 其中 $g \in \partial ∥ β ∥_{1}$ , 即对于每个 $i = 1 \dots p$ :
$g_{i} = ⎩ ⎨ ⎧ 1, - 1, [- 1, 1], β_{i} > 0 β_{i} < 0 β_{i} = 0 .$

OptOpt

Explorer

Lecture 06 · Subgradient

1. Subgradients and Subdifferentials

2. Properties of Subgradients

3. Optimality Condition for Subgradients

Graph View

Table of Contents