References

1. Optimization Problems

1.1 Problem Formulation

回顾, 一个凸优化问题具有如下形式:

  • 其中 是凸函数, optimization domain 是凸集. 称作 criterion 或 objective function. 称作 inequality constraint functions.
  • 对于满足所有约束条件的 称作 feasible point, 否则称作 infeasible point. 若 是 feasible point 且 对某些 成立, 则称该约束条件 处为 active constraint, 否则称为 inactive constraint.
  • 若存在 是所有 feasible point 中使 取得最小值的点, 则称 为 optimal point 或该问题的 solution, 最小值 称作 optimal value. 若 是 feasible point, 且有 , 则称 -suboptimal point.

同时方便起见, 定义优化问题的最优值 :

  • 这里 可能为 , 若存在 feasible point 使得 可以任意小, 则称该问题为 unbounded below.

1.2 Global and Local Optimality

  • 若优化问题有解, 则记所有最优解组成的集合为 :

  • 若优化问题对于 满足

    则称 -suboptimal point.

  • 若对于某个 feasible point , 存在某个 , 满足

    则称 为该优化问题的局部最优解.

关于最优解集, 有两条重要性质:

  1. 由于 均为凸函数, 且约束条件均为凸集, 因此 也是凸集.

    Proof of convexity of the optimal solution set

    • 假设 , 则对任意 , 有:
      • , 因此 满足不等式约束条件.
      • , 因此 满足等式约束条件.
      • , 因此 也是最优解.
    • 综上, , 因此 是凸集.

  2. 严格凸, 则最优解若存在则唯一. 故可立刻推出任意局部最优解也是全局最优解.

    Proof of uniqueness under strict convexity

    • 假设存在 , 且 , 则对任意 , 有:
      • , 这与 为最小值矛盾.
    • 因此, 最优解唯一.

1.3 Different Forms of Convex Optimization Problems

对于上述的优化问题, 我们还可以等价地给出其等价形式:

  • 其中 是约束条件的可行域, 即所有满足约束条件的 的集合.

亦或通过引入 indicator function , 将问题转化为如下无约束优化问题:

  • 其中 是 indicator function, 定义为:


Example (LASSO). 给定 , , LASSO 问题定义为:

  • 是列满秩的, 则该问题的解是唯一的.

    Proof of uniqueness in the full-column-rank case

    考虑 , 由于 是列满秩的, 因此 是正定矩阵, 故 是严格凸函数, 因此该问题的解唯一.

  • 的高维场景, 则该问题可能存在多个解.

Example (SVM). 考虑如下支持向量机(SVM)的优化问题. 对于给定的训练数据集 , 其中 是样本特征, 是样本标签, SVM 的优化问题定义为 (其中 是松弛变量, 允许一定程度的分类错误):


1.4 First-Order Optimality Conditions

Theorem (First-Order Optimality Condition). 给定可微的凸函数 , 考虑如下优化问题:

是该问题的最优解当且仅当:

First-order optimality condition illustration

Proof of the first-order optimality condition

  • 是最优解:
    • 由凸性可知, 对于 及任意 , 有

    • 可知, 对于任意 , 有 .

    • 又由于 , 因此 对任意 成立, 即 是最优解.

  • 是最优解 :
    • 用反证法, 假设 是最优解但存在 使得 .
    • 此时考虑从 的线段上的点 , 其中 . 并记在该点处的函数值为 . 下尝试说明, 由反证法假设, 我们可以找到某 使得 .
    • 首先由凸优化问题可知, 对任意 成立.
    • 接着考虑 的导数 . 特别地, 当 时, 有 .
    • 和导数定义可知, 存在足够小的 使得 . 故矛盾.
  • 从几何角度看, 意味着向量 的夹角为锐角或直角, 即从 指向任意 feasible point 的向量与 (即最陡上升方向)的夹角非钝角, 即从 出发沿着任意 feasible point 的方向, 函数值都是不减的.


Special Case (Unconstrained problem).

特别地, 当 时, 上述条件退化为 . 当 是凸可微函数时, 该条件是全局最优的充要条件; 若 进一步严格凸, 则该最优解唯一. 若为一般非凸可微函数, 则该条件仅为必要条件.

Proof of the unconstrained case

下说明退化之方式.

  • 由于 是可微函数, 因此在任意 , 都能找到小球 使得 , 即任意足够靠近 的点都是 feasible point.
  • 因此构造 , 对于足够小的 , 仍是 feasible point.
  • 因此, . 又由于 , 因此 . 故 .


Special Case (Equality constraints only).

考虑凸优化问题:

其中 是可微函数, , .

对于仅含等式约束的凸优化问题其一阶条件退化为: 存在 使得

其中 是拉格朗日乘子, 该条件亦称为 Lagrange Multiplier Optimality Condition.

Proof of the equality-constrained case

  • 根据初始的一阶最优条件, 应当满足 ; 且对所有满足 , 有

  • 由于 同时满足等式约束, 故 . 这说明, 所有的可行位移都应处在 的零空间内, 即 . 换言之, 所有可行的 都应满足 , 即 是一一对应的, 故最优性条件可以改写为:

  • 而由于 的取值任意性, 必有 . 这是因为定同时有 成立. 故有

  • 而这一表述等价于 . 又根据线性代数结论, 的 Null Space 的正交补空间为 Row Space, 即 的 Column Space, 因此 , 即存在 , 使得 . 记 , 则有

2. Equivalence between Different Forms of Optimization Problems

有一些变换可以将不同形式的优化问题相互转化.

2.1 Transforms of Variables

是一个 1-1 映射, 其象能够包含原始问题的定义域 (即 ). 则原始问题:

等价于:

显然, 如果 解决了原始问题, 则 解决了变换后的问题, 反之亦然.

2.2 Transforms of Objective and Constraint Functions

对于单调递增函数 ; 以及函数 满足当且仅当 , 函数 满足当且仅当 , 则原始问题等价于

Example (Minimizing Euclidean Norm). 无约束的 Euclidean 范数最小化问题:

等价于:

  • 虽然这两个问题是等价的, 但并不相同, 二者在定义域上的可微性不同.

2.3 Partial Optimum

如果 关于 是凸函数, 且 是非空凸集, 则函数

也是 的凸函数 (只要 在其定义域内取值有限).

  • 其中 , 即 方向上的投影.

Proof of convexity under partial minimization

  • 根据 Infimum 的定义, 对于任意 , 以及任意 , 存在 使得:

  • 根据 的定义, 对于对于任意 :

  • 由于 是任意的, 故有:

因此, 该性质说明, 我们能够将一个关于多个变量的凸函数, 通过对部分变量取 Infimum 的方式, 得到一个关于剩余变量的凸函数.

2.4 Eliminating Equality Constraints

考虑如下优化问题:

  • 其中 , .

则可以通过如下变换将等式约束消除. 对等式约束, 我们可以确定任意一个 particular solution 满足 . 则任意满足等式约束的 都可以表示为:

  • 这是因为对于任意满足 , 有 , 因此 .

对于 , 其维度 , 故可以找到一组基 使得 . 换言之, 对于任意 , 都存在 使得:

  • 其中 , .

故我们可以将 表示为 , 因此原始问题等价于:

2.5 Slack Variables to Eliminate Inequality Constraints

注意到 等价于 存在 使得 . 因此, 原始问题

等价于:

其中 称作 slack variable. 通过引入 , 每个不等式约束都可以转化为一个等式约束加上一个非负约束.

然而, 除非 都是 affine 函数, 否则该变换并不保持凸性.

2.6 Relaxation Non-affine Equality Constraints

考虑一般的优化问题:

我们总可以找到一个更大的集合 , 考虑

则该问题称作原始问题的 relaxation. 显然, 对于最小化问题, relaxation 问题的最优值不大于原始问题的最优值.

  • 特别地, 对于凸但非 affine 的等式约束 , 我们可以考虑将其放松为 , 以确保凸性.

  • 注意, relaxation 问题的解不一定是原始问题的可行解, 其只能作为原始问题的下界估计. 若 relaxation 问题的解恰好是原始问题的可行解, 则该解也是原始问题的最优解.