References

1. Introduction

What is a convex optimization problem?

一般而言, 一个凸优化问题可以表示为如下形式:

Why Convexity?

  • 凸优化问题是我们能够一般化解决的一类优化问题. 对于凸优化问题, 其局部最优解即为全局最优解.
  • 非凸问题往往需要具体情况具体分析, 难以给出一个统一的解决范式.

2. Convex Sets

Definition (Convex Set). 对于集合 , 其是一个凸集, 若满足对任意 , 有:

  • 即凸集中的任意两点连线段均在该集合内.

Definition (Convex Combination). 对于集合 中的点 , 若存在非负实数 满足 , 则点

称为 凸组合.

Definition (Convex Hull). 对于集合 , 其凸包定义为包含 的所有元素的所有凸组合的最小凸集, 记为 .

如下是一些典型的凸集的例子:

  • Trivial examples: 空集, 点, 线等必然是凸集.
  • Norm Ball: (给定及半径 ).
  • Hyperplane: (给定 )
  • Halfspace: (给定 )
  • Affine Space: (给定 )
  • Polyhedron: (给定 )
  • Simplex: 对于 affinely independent 的 个点 , 其凸包称为 -simplex, 记为 .
    • affinely independent: 点集 称为仿射独立的, 若 线性独立. 线形独立需要考虑原点, 而仿射独立只考虑点之间的相对位置关系. 在一维空间不重合的两个点, 二维空间中不共线的三个点等等均是仿射独立的例子.

    • 数学上, 若 是标准基, 则 -simplex 即为单位 simplex, 或称为概率 simplex:

3. Cones

Definition (Cone). 对于集合 , 其是一个锥, 若满足对任意 及非负实数 , 有:

  • 即锥中的任意点沿射线方向延伸后仍在该集合内.

Definition (Convex Cone). 对于集合 , 其是一个凸锥, 若满足对任意 及非负实数 , 有:

  • 并不是所有的锥都是凸锥. 例如在二维空间中的坐标轴集合 就不是凸锥. 锥只要求该集合关于正数乘法封闭, 并不要求其关于加法封闭.

Definition (Conic Combination). 对于集合 中的点 , 若存在非负实数 , 则点 称为一个锥组合.

Definition (Conic Hull). 对于集合 , 其锥包定义为包含 的所有元素的所有锥组合的最小凸锥, 记为 .

如下是一些典型的凸锥的例子:

  • Norm cone: (给定). 特别地在二范数下, 该集合称为Second-Order Cone (SOC)Lorentz Cone.

  • Normal cone: 给定任何集合 以及点 , 其法锥定义为:

    • Normal cone 是对法线概念的一个推广. 其相当于是指, 在点 处, 所有指向集合外部的向量的集合 (相当于夹角至少垂直或为钝角的向量集合).
    • 对于集合的内部点, 其法锥仅包含零向量. 对于光滑的边界点, 其法锥仅包含唯一的法向量的非负倍数. 对于非光滑的边界点, 其法锥包含多个法向量的非负倍数.
    • 图示链接: Code_Generated_Image.png
  • Positive semidefinite cone: 即由所有 的对称正半定矩阵组成的集合.

    • PSD 作为 cone, 其满足对于 PSD 的两个矩阵 , 满足任意非负实数 , 有 即其仍然是 PSD 矩阵.
    • 根据 PSD 矩阵的定义, 因此 仍然是 PSD 矩阵.

4. Key Properties of Convex Sets

中的简单拓扑:

  • Open Ball: 对于点 及实数 , 定义开球为 .
  • Interior Point: 对于集合 , 若存在 使得开球 , 则称点 的内点. 数学上表示为: .
  • Exterior Point: 对于集合 , 若存在 使得开球 , 则称点 的外点.
  • Boundary: 对于集合 , 其边界定义为: . 即边界上的点既不是内点, 也不是外点.
    • Closure: 对于集合 , 其闭包定义为: . 即对于 closure 中的任意点, 其任意小的邻域内均包含 中的点.故 .
  • 给定 , 则空间中的任意点 要么是 的内点, 要么是外点, 要么是边界点.

Theorem (Separating Hyperplane Theorem). 对于两个不相交的凸集 , 存在一个超平面将其分开, 即存在非零向量 及标量 , 使得:

Proof of the separating hyperplane theorem

  • 给定两个不相交的凸集 , 定义距离函数 , 并记各自最短处的点为 . 事实上, 这里的 hyperplane 恰好在 的中垂线上.

    Separating hyperplane illustration

  • 的中点, 则定义仿射函数 .

    • 的集合是一个超平面, 这个超平面经过点 , 且法向量为 . 事实上, 等价于 . 故 表示点 更靠近 , 而 则表示点 更靠近 .
  • 下证明对于任意 , .

    • 用反证法. 假设存在 使得 . 下试图说明, 若存在这样的距离 近于 中的点 , 则我们可以让 移动, 从而找到一个更近的点对, 而这与 是最短距离点对矛盾.
      • 等价于 , 即 . 这说明从 指向 的向量与从 指向 的向量夹角为锐角, 即 的“前方”.

      • 由于 是凸集, 则对于任意 , 点 .

      • 此时, 考虑距离函数 . 则有:

        求导, 有:

        处, 有:

        这说明在 附近, 是递减的. 因此, 存在一个足够小的正数 , 使得 , 即 . 这与 是最短距离点对矛盾.

  • 类似地, 可证明对于任意 , .

  • 因此, 取 , 则有:

Notes

  • 严格的分割 () 并不是对所有不相交的凸集都成立的.
    • 例如, 若 , 则其不相交, 但不存在严格分割它们的超平面. 并且这与集合是否是闭集无关, 例如对于 , 其也是不相交的凸集, 但不存在严格分割它们的超平面.
    • 总的而言, 我们需要满足两个集合的距离 时, 才能保证存在严格分割它们的超平面.

Theorem (Supporting Hyperplane Theorem). 对于非空凸集 及其边界上的任意点 , 定存在一个超平面支持该点, 即存在非零向量 使得:

Proof of the supporting hyperplane theorem

  • 首先考虑一个非退化的场景. 设 , 考虑 的情形.
    • 此时, 令 . 则 是不相交的凸集. 根据Separating Hyperplane Theorem, 存在非零向量 及标量 , 使得:

      • 由于 仅包含点 , 则 . 故对于任意 , 有 . 因此, 我们确定了这样一个超平面, 使得 在该超平面的另一侧.
    • 接下来, 我们需要从 推广到整个 . 而推广的核心在于下述引理, 其核心思想为对于 中的任意一个点 , 我们总能构造一串内点 序列以逼近之. 其正式叙述如下.

      • Lemma.. 任取 , 定存在 使得 (1) ; (2) 对任意 , 点 属于 . 故当 时, . (3) 更进一步, 以 为球心, 以 为半径的开球 亦包含于 中.
        • 对于 (1), 其根据内点的定义自然成立. 此时固定这个半径 .
        • 下证明 (2). 由于 是凸的, 故 . 为证明 , 需证 . 这等价于去证明对于 内的任意一点 , 有 . 而 又等价于 . 下证明, 当取 时, 对任意 满足 , 有 .
          • 构造性地引入 (1) 中 的一个点 (可以证明, , 即这样的到的 定是在 (1) 中开球内的). 又由于 , 故 .

          • 我们有 (待逼近的点), , 且 是凸的. 根据 以及 的定义, 可知

          • 因此, 根据凸集的定义, 可知 . 这就证明了 (2): .

      • 下使用这个引理完成推广的证明. 对于给定的任意 , 我们要证 . 根据引理, 取 , 定义 . 又由于 中的连续函数, 故 .
  • 另一方面, 考虑 的情形 (例如在二维空间中的一个线段或三维空间中的一个平面多边形). 此时可以认为 是“躺”在一个低维的仿射平面中. 此时这个仿射平面本身即为一个超平面, 且显然支持 上的任意点. 故其也是平凡成立的. (此处具体数学证明略去, 可参考相关凸分析教材.)

  • 推论: 给定一个闭集 , 若对于边界上的任意一点 都存在对应的 supporting hyperplane, 则 是凸集.

5. Operations that Preserve Convexity

如下操作均能保持凸集的凸性:

  • Intersection: 可列交的凸集的交集仍然是凸集. 即对于任意凸集族 , 其交集 仍然是凸集.

  • Affine Transformation: 设 是凸集, 且 . 则仿射变换 下的像 仍然是凸集. 另外, 凸集 的逆像 亦是凸集.

    • Example 给定 , 定义 linear matrix inequality 为 , 其中 . 则该不等式所定义的集合 是凸集.

      Proof of the LMI convexity example

      • Method 1: 可直接由定义, 给定 , 证明对任意 , 有 .
      • Method 2: 该集合可表示为 , 其中 是一个仿射映射, 而 是 PSD 锥, 因此根据仿射映射下凸集的逆像仍然是凸集的性质, 可知该集合是凸集.
  • Perspective image and preimage: 设 是凸集. 定义透视映射 . 则透视映射下的像 仍然是凸集. 另外, 凸集 的逆像 亦是凸集.

  • Linear-fractional image and preimage: 设 是凸集, 且 . 定义线性分式映射 , 其中定义域为 . 则线性分式映射下的像 仍然是凸集. 另外, 凸集 的逆像 亦是凸集.

6. Convex Functions

Definition (Convex Function). 对于函数 , 其是一个凸函数, 若满足 (1) 其定义域 是凸集; (2) 对任意 , 有:

  • Strictly Convex Function: 若对任意 , 有:

    • 可以认为, strictly convex function 要 “更凸于“ 线性函数.
  • Strongly Convex Function: 称 -强凸函数, 若存在常数 , 使得如下函数 是凸函数:

    其还有如下等价定义. 若存在常数 , 使得对于任意 , 有:

    则称 -强凸函数.

    • 可以认为, strongly convex function 要 “更凸于“ 二次函数.
    • Strongly convex 的函数若存在最小值则必定唯一.
  • 显然有: strongly convex function strictly convex function convex function.

Example (典型的凸函数).

  • Exponential Function: , 其中 .

  • Power Function: , 其中 , 定义域为 .

  • Affine Function: , 其中 . 其既是凸函数, 也是凹函数.

  • Quadratic Function: 若给定 , 则 是凸函数, 其中 .

  • Least Squares Function: , 其中 .

  • Norms: 任何范数 都是凸函数.

  • Indicator Function: 对凸集 , 定义指标函数为:

    显然, 指标函数是凸函数. 因为其定义域即为凸集 , 且在该定义域内函数值恒为零 (线性函数), 在定义域外函数值恒为无穷大.

  • Support Function: 对任意集合 (不对其凸性作要求), 其 support function 定义为:

    • 支持函数是凸函数. 因为对于任意 , 有:
  • Max Function: 是凸函数.

  • Log-Sum-Exp Function: , 其中 .

7. Key Properties of Convex Functions

Claim (Epigraph Characterization). 函数 是凸函数的充分必要条件为其上图 (epigraph) 是凸集. 其中, 上图定义为:

Claim (Sublevel Set Characterization). 函数 是凸函数, 可以推出其任意次水平集 (sublevel set) 是凸集. 其中, 次水平集定义为:

  • 反之不成立, 即任意次水平集均为凸集并不能推出函数是凸函数, 只能称其为 Quasi-Convex Function.
    • 例如如下 , 其任意次水平集均为凸集, 但该函数并非凸函数. y=log(|x|+1)

Danger: 凸函数的一阶充要条件

Theorem (First-Order Characterization). 函数 在凸集 上可微, 则 是凸函数的充分必要条件为:

  • 该不等式表明, 函数在任意点处的切线 (或切平面) 都在函数图像的下方.

Theorem (Monotonic of Gradients). 函数 是可微函数, 其是凸函数当且仅当定义域为凸集且其梯度为单调映射, 即:

  • 对于严格凸函数, 等价于其梯度
  • 对于强凸函数, 等价于其梯度

Theorem (Second-Order Characterization). 函数 在凸集 上二阶可导, 则 是凸函数的充分必要条件为:

  • 即函数的 Hessian 矩阵在定义域内处处为正半定矩阵.
  • 注意, strictly convex function 并不能推出 . 例如 是严格凸函数, 但其 Hessian (即二阶导数) 在 , 在 处并不严格正定.

Theorem (Jensen’s Inequality). 是凸函数, 且 是取值于 的随机变量. 则有:

8. Operations that Preserve Convexity of Functions

如下操作均能保持凸函数的凸性:

  • Nonnegative Linear Combination: 设 是凸函数, 且 是非负实数. 则函数 仍然是凸函数.
  • Pointwise Maximum: 设 是一族凸函数, 则函数 仍然是凸函数.
  • Partial Minimization: 设 是凸函数, 则对于任意固定的 , 函数 仍然是凸函数.
  • Affine Composition: 设 是凸函数, 且 . 则函数 仍然是凸函数.
  • General Composition: 给定 , 且 , 则有如下组合关系:
    • 是 convex 非减, 且 是 convex, 则 是 convex.
    • 是 convex 非增, 且 是 concave, 则 是 convex.