References
- Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/
- Reading: 最优化: 建模、算法与理论, 刘浩洋等, 2.7 小节.
1. Subgradients and Subdifferentials
回顾, 对于可微且凸的函数 , 其在任意点 处的梯度 都满足以下不等式:
因此, 可以被看作是函数 在点 处的一个全局下界. 但是, 当函数 不可微时, 其在某些点处可能没有梯度. 这时, 我们可以引入次梯度的概念来推广梯度的定义.
Definition (Subgradient). 对于一个凸函数 , 如果存在一个向量 满足以下不等式:
则称 是函数 在点 处的一个次梯度.
Example (Absolute Value). 考虑函数 , 其在 处不可微. 其在任意 处的次梯度为 , 而在 处的次梯度为 中的任意值.
Definition (Subdifferential). 对于一个凸函数 , 定义其在点 处的次微分为所有次梯度的集合, 记为 :
Theorem (Existence of Subgradients). 次梯度对任意凸函数在定义域中的内点一定存在. 即对于任意凸函数 , 其定义域为 . 给定任意 , 则 .
Proof of existence of subgradients
令 . 由于 是凸函数, 则 是一个凸集. 又由于 , 则 是 的一个边界点.
回顾 Supporting Hyperplane Theorem: 对于一个凸集 和边界点 , 存在一个超平面 , 使得 完全位于 的一侧, 即 对任意 都成立.
因此, 根据 Supporting Hyperplane Theorem, 存在一个不全为 的向量 使得对任意 , 都有:
整理即有:
首先判断上述不等式中 的符号.
- 要使不等式对于给定的 和由此确认的 关于任意 都成立, 首先断言必有 .
- 否则, 若 , 则取 时, 右侧 , 而左侧 为固定的有限值, 不等式无法成立.
- 进一步还可以根据 的假设, 断言必有 .
- 否则若 , 则不等式变为 对任意 都成立. 特别地, 取 , 同样有 对任意 , 即对任意 成立.
- 此时, 由于内点 的性质, 在其小邻域内的点 也属于 , 其中 是一个足够小的常数. 代入上述不等式, 则有 , 从而 .
- 因此, 若 , 则 , 与 不全为 的假设矛盾.
由于上述不等式对于任意 都成立, 特别地, 取 , 则有:
由于 , 上式等价于:
- 因此, 定义 , 则 是函数 在点 处的一个次梯度, 即 .
Example (Maximum of Two Differentiable Convex Functions). 考虑函数 , 其中 是两个可微凸函数. 则:
- 对于 的点 , .
- 对于 的点 , .
- 对于 的点 , . 即在 和 的梯度之间的任意凸组合都是 在点 处的次梯度.
Example (Maximum of Finitely Many Differentiable Convex Functions). 上一个例子还可以进一步推广到 个函数的最大值. 定义 , 其中每个 都是可微凸函数. 定义 active set , 即在某点 处达到最大值的函数索引集合 (若 只有一个元素, 则 在点 处可微; 否则, 在点 处不可微). 则:
Proof of the finite maximum subdifferential formula
对于任意 且 , 定义 .
由支撑超平面定理, 对于任意 和 , 都有 .
又根据 的性质, 对于任意 : .
因此, 对于任意 :
Example (Indicator Function and Normal Cone). 特别地, 考虑 indicator function , 其定义为:
其中 是一个凸集. 则 的次微分 恰为 在点 处的法向量集合, 记为 :
Proof of the indicator-function subdifferential
由次梯度定义, 对于任意 和 , 有:
其中假设 .
- 如果 , 则 . 此时不等式变为 , 恒成立.
- 如果 , 则 . 此时不等式变为 , 即 , 即要求 对任意 都成立. 记为 .
- 在几何上, 表示从 指向集合内任意点 的向量, 表示 与 之间的夹角大于等于 , 即 是指向集合外部的法向量.
2. Properties of Subgradients
Property 1. 次微分在凸函数定义域内为凸闭集, 在定义域内点为非空有界集. 对于凸函数 : (1) 对任意 , 次微分 是一个凸且闭的集合, 但可能为空; (2) 对于任意 , 非空且有界.
Property 2. 凸函数若某在某点可微, 则其梯度是唯一的次梯度. 如果 在点 处可微, 则 .
Proof of uniqueness of the subgradient at differentiable points
- 首先, 由于 在点 处可微, 则梯度 满足次梯度定义.
- 下证明其唯一性. 假设存在另一个次梯度 , 且 .
由次梯度定义, 对任意 , 考虑满足 , 其中 的点, 则有:
继续变形, 有
取 , 则上式变为
取 , 根据可微性的定义, 上式左侧趋近于 , 与右侧 矛盾. 因此, 不存在另一个次梯度 , 即 .
Property 3. 次梯度对于凸函数是“单调递增”的. 对于任意凸函数 和任意 , 任意 和 都满足:
- 该性质在一元的特殊情况下很好理解. 例如对于 , 其次梯度为 , 则对于任意 , 都有 和 , 从而 .
Property 4. 次梯度的图象 是闭集. 对于任意闭凸函数 , 考虑序列 且 , 对应 且 , 则 .
Property 5. 凸函数 关于方向 的方向导数 是 在 出所有次梯度与方向 的内积的最大值. 具体地, 定义 在点 关于方向 的方向导数为:
Proof sketch of the directional-derivative characterization
由方向导数的定义:
同时又知在内点 处, 存在次梯度 , 使得对任意 :
因此, 对任意 :
上述即说明方向导数是任意次梯度与方向 的内积的上界. 通过进一步的分析能够证明其为上确界. 过程略.
关于次梯度, 有如下运算规则 (往往默认在内点以及各函数定义域的交集内等一般情况下):
-
线性组合: 对于任意 和凸函数 , 有:
-
Affine 变换: 若 是一个矩阵, 是一个向量, 则:
-
最大值: 对于 , 其中每个 都是可微凸函数, 定义 active set , 则:
-
更一般地, 考虑 , 其中 是任意集合 (可能是不可列等情况), 同样定义 active set , 则:
- 其中 表示闭包, 因为在某些 pathological 情况下, 可能包含一些极限点, 但不包含某些凸组合.
- 当 和 满足了一些额外的正则化条件时, 上述包含关系可以变为等式.
-
3. Optimality Condition for Subgradients
首先不考虑约束, 仅考虑一个凸函数 的最小化问题 .
Theorem (Optimality Condition for Subgradients). 对于一个凸函数 , 如果 , 则 是 的一个全局最小点. 反之, 如果 是 的一个全局最小点, 则 .
- 对于可微函数, 上述定理退化为 在 处的梯度 等于 是 的一个全局最小点的充分必要条件. 但对于不可微函数, 上述定理提供了一个更一般的最优性条件.
进一步考虑任意凸优化问题, 此时由于约束的存在, 其最优性并不一定在全局最小点处达到. 不过仍然可以通过次梯度来刻画其局部最优点的性质. 回顾, 对于一个凸优化问题, 给定 是凸且可微的, 则
其在 是最优点的一阶充要条件为:
该条件也可以通过次梯度来分析.
-
将上述优化问题整理为无约束优化问题的形式:
其中 是集合 的 indicator function.
- 此时对于扩展后的目标函数 , 其全局最优条件为 .
- 根据次微分的线性组合规则, 上式等价于 , 即存在 和 使得 .
- 又根据 , 则存在 和 使得 , 即 .
- 回顾 , 则 等价于 , 与之前的最优性条件一致.
因此, 对于任意一个凸优化问题, 我们都可以给出其最优点的一个一般性条件:
Example (Lasso Optimality Condition). 对于 和 , 考虑 Lasso 问题:
-
该问题的次微分最优性条件为:
-
故整理有 , 其中 , 即对于每个 :