References

1. Subgradients and Subdifferentials

回顾, 对于可微且凸的函数 , 其在任意点 处的梯度 都满足以下不等式:

因此, 可以被看作是函数 在点 处的一个全局下界. 但是, 当函数 不可微时, 其在某些点处可能没有梯度. 这时, 我们可以引入次梯度的概念来推广梯度的定义.

Definition (Subgradient). 对于一个凸函数 , 如果存在一个向量 满足以下不等式:

则称 是函数 在点 处的一个次梯度.

Example (Absolute Value). 考虑函数 , 其在 处不可微. 其在任意 处的次梯度为 , 而在 处的次梯度为 中的任意值.

Definition (Subdifferential). 对于一个凸函数 , 定义其在点 处的次微分为所有次梯度的集合, 记为 :

Theorem (Existence of Subgradients). 次梯度对任意凸函数在定义域中的内点一定存在. 即对于任意凸函数 , 其定义域为 . 给定任意 , 则 .

Proof of existence of subgradients

  • . 由于 是凸函数, 则 是一个凸集. 又由于 , 则 的一个边界点.

    • 回顾 Supporting Hyperplane Theorem: 对于一个凸集 和边界点 , 存在一个超平面 , 使得 完全位于 的一侧, 即 对任意 都成立.

    • 因此, 根据 Supporting Hyperplane Theorem, 存在一个不全为 的向量 使得对任意 , 都有:

      整理即有:

  • 首先判断上述不等式中 的符号.

    • 要使不等式对于给定的 和由此确认的 关于任意 都成立, 首先断言必有 .
      • 否则, 若 , 则取 时, 右侧 , 而左侧 为固定的有限值, 不等式无法成立.
    • 进一步还可以根据 的假设, 断言必有 .
      • 否则若 , 则不等式变为 对任意 都成立. 特别地, 取 , 同样有 对任意 , 即对任意 成立.
      • 此时, 由于内点 的性质, 在其小邻域内的点 也属于 , 其中 是一个足够小的常数. 代入上述不等式, 则有 , 从而 .
      • 因此, 若 , 则 , 与 不全为 的假设矛盾.
  • 由于上述不等式对于任意 都成立, 特别地, 取 , 则有:

    • 由于 , 上式等价于:

      • 因此, 定义 , 则 是函数 在点 处的一个次梯度, 即 .

Example (Maximum of Two Differentiable Convex Functions). 考虑函数 , 其中 是两个可微凸函数. 则:

  • 对于 的点 , .
  • 对于 的点 , .
  • 对于 的点 , . 即在 的梯度之间的任意凸组合都是 在点 处的次梯度.

Example (Maximum of Finitely Many Differentiable Convex Functions). 上一个例子还可以进一步推广到 个函数的最大值. 定义 , 其中每个 都是可微凸函数. 定义 active set , 即在某点 处达到最大值的函数索引集合 (若 只有一个元素, 则 在点 处可微; 否则, 在点 处不可微). 则:

Proof of the finite maximum subdifferential formula

  • 对于任意 , 定义 .

  • 由支撑超平面定理, 对于任意 , 都有 .

  • 又根据 的性质, 对于任意 : .

  • 因此, 对于任意 :

Example (Indicator Function and Normal Cone). 特别地, 考虑 indicator function , 其定义为:

其中 是一个凸集. 则 的次微分 恰为 在点 处的法向量集合, 记为 :

Proof of the indicator-function subdifferential

  • 由次梯度定义, 对于任意 , 有:

    其中假设 .

    • 如果 , 则 . 此时不等式变为 , 恒成立.
    • 如果 , 则 . 此时不等式变为 , 即 , 即要求 对任意 都成立. 记为 .

  • 在几何上, 表示从 指向集合内任意点 的向量, 表示 之间的夹角大于等于 , 即 是指向集合外部的法向量.

2. Properties of Subgradients

Property 1. 次微分在凸函数定义域内为凸闭集, 在定义域内点为非空有界集. 对于凸函数 : (1) 对任意 , 次微分 是一个凸且闭的集合, 但可能为空; (2) 对于任意 , 非空且有界.

Property 2. 凸函数若某在某点可微, 则其梯度是唯一的次梯度. 如果 在点 处可微, 则 .

Proof of uniqueness of the subgradient at differentiable points

  • 首先, 由于 在点 处可微, 则梯度 满足次梯度定义.
  • 下证明其唯一性. 假设存在另一个次梯度 , 且 .
    • 由次梯度定义, 对任意 , 考虑满足 , 其中 的点, 则有:

    • 继续变形, 有

    • , 则上式变为

    • , 根据可微性的定义, 上式左侧趋近于 , 与右侧 矛盾. 因此, 不存在另一个次梯度 , 即 .

Property 3. 次梯度对于凸函数是“单调递增”的. 对于任意凸函数 和任意 , 任意 都满足:

  • 该性质在一元的特殊情况下很好理解. 例如对于 , 其次梯度为 , 则对于任意 , 都有 , 从而 .

Property 4. 次梯度的图象 是闭集. 对于任意闭凸函数 , 考虑序列 , 对应 , 则 .

Property 5. 凸函数 关于方向 的方向导数 出所有次梯度与方向 的内积的最大值. 具体地, 定义 在点 关于方向 的方向导数为:

Proof sketch of the directional-derivative characterization

  • 由方向导数的定义:

  • 同时又知在内点 处, 存在次梯度 , 使得对任意 :

  • 因此, 对任意 :

  • 上述即说明方向导数是任意次梯度与方向 的内积的上界. 通过进一步的分析能够证明其为上确界. 过程略.

关于次梯度, 有如下运算规则 (往往默认在内点以及各函数定义域的交集内等一般情况下):

  • 线性组合: 对于任意 和凸函数 , 有:

  • Affine 变换: 若 是一个矩阵, 是一个向量, 则:

  • 最大值: 对于 , 其中每个 都是可微凸函数, 定义 active set , 则:

    • 更一般地, 考虑 , 其中 是任意集合 (可能是不可列等情况), 同样定义 active set , 则:

      • 其中 表示闭包, 因为在某些 pathological 情况下, 可能包含一些极限点, 但不包含某些凸组合.
      • 满足了一些额外的正则化条件时, 上述包含关系可以变为等式.

3. Optimality Condition for Subgradients

首先不考虑约束, 仅考虑一个凸函数 的最小化问题 .

Theorem (Optimality Condition for Subgradients). 对于一个凸函数 , 如果 , 则 的一个全局最小点. 反之, 如果 的一个全局最小点, 则 .

  • 对于可微函数, 上述定理退化为 处的梯度 等于 的一个全局最小点的充分必要条件. 但对于不可微函数, 上述定理提供了一个更一般的最优性条件.

进一步考虑任意凸优化问题, 此时由于约束的存在, 其最优性并不一定在全局最小点处达到. 不过仍然可以通过次梯度来刻画其局部最优点的性质. 回顾, 对于一个凸优化问题, 给定 是凸且可微的, 则

其在 是最优点的一阶充要条件为:

该条件也可以通过次梯度来分析.

  • 将上述优化问题整理为无约束优化问题的形式:

其中 是集合 的 indicator function.

  • 此时对于扩展后的目标函数 , 其全局最优条件为 .
    • 根据次微分的线性组合规则, 上式等价于 , 即存在 使得 .
    • 又根据 , 则存在 使得 , 即 .
      • 回顾 , 则 等价于 , 与之前的最优性条件一致.

因此, 对于任意一个凸优化问题, 我们都可以给出其最优点的一个一般性条件:

Example (Lasso Optimality Condition). 对于 , 考虑 Lasso 问题:

  • 该问题的次微分最优性条件为:

  • 故整理有 , 其中 , 即对于每个 :