References
- Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/
- Reading: Boyd & Vandenberghe, Convex Optimization, Sections 3.2.5, 4.1.3, and 4.2.
1. Optimization Problems
1.1 Problem Formulation
回顾, 一个凸优化问题具有如下形式:
- 其中 是凸函数, optimization domain 是凸集. 称作 criterion 或 objective function. 称作 inequality constraint functions.
- 对于满足所有约束条件的 称作 feasible point, 否则称作 infeasible point. 若 是 feasible point 且 对某些 成立, 则称该约束条件 在 处为 active constraint, 否则称为 inactive constraint.
- 若存在 是所有 feasible point 中使 取得最小值的点, 则称 为 optimal point 或该问题的 solution, 最小值 称作 optimal value. 若 是 feasible point, 且有 , 则称 为 -suboptimal point.
同时方便起见, 定义优化问题的最优值 :
- 这里 可能为 , 若存在 feasible point 使得 可以任意小, 则称该问题为 unbounded below.
1.2 Global and Local Optimality
-
若优化问题有解, 则记所有最优解组成的集合为 :
-
若优化问题对于 满足
则称 为 -suboptimal point.
-
若对于某个 feasible point , 存在某个 , 满足
则称 为该优化问题的局部最优解.
关于最优解集, 有两条重要性质:
-
由于 和 均为凸函数, 且约束条件均为凸集, 因此 也是凸集.
Proof of convexity of the optimal solution set
- 假设 , 则对任意 , 有:
- , 因此 满足不等式约束条件.
- , 因此 满足等式约束条件.
- , 因此 也是最优解.
- 综上, , 因此 是凸集.
- 假设 , 则对任意 , 有:
-
若 严格凸, 则最优解若存在则唯一. 故可立刻推出任意局部最优解也是全局最优解.
Proof of uniqueness under strict convexity
- 假设存在 , 且 , 则对任意 , 有:
- , 这与 为最小值矛盾.
- 因此, 最优解唯一.
- 假设存在 , 且 , 则对任意 , 有:
1.3 Different Forms of Convex Optimization Problems
对于上述的优化问题, 我们还可以等价地给出其等价形式:
- 其中 是约束条件的可行域, 即所有满足约束条件的 的集合.
亦或通过引入 indicator function , 将问题转化为如下无约束优化问题:
-
其中 是 indicator function, 定义为:
Example (LASSO). 给定 , , LASSO 问题定义为:
-
若 且 是列满秩的, 则该问题的解是唯一的.
Proof of uniqueness in the full-column-rank case
考虑 , 由于 是列满秩的, 因此 是正定矩阵, 故 是严格凸函数, 因此该问题的解唯一.
-
若 的高维场景, 则该问题可能存在多个解.
Example (SVM). 考虑如下支持向量机(SVM)的优化问题. 对于给定的训练数据集 , 其中 是样本特征, 是样本标签, SVM 的优化问题定义为 (其中 是松弛变量, 允许一定程度的分类错误):
1.4 First-Order Optimality Conditions
Theorem (First-Order Optimality Condition). 给定可微的凸函数 , 考虑如下优化问题:
则 是该问题的最优解当且仅当:
Proof of the first-order optimality condition
- 是最优解:
由凸性可知, 对于 及任意 , 有
由 可知, 对于任意 , 有 .
又由于 , 因此 对任意 成立, 即 是最优解.
- 是最优解 :
- 用反证法, 假设 是最优解但存在 使得 .
- 此时考虑从 到 的线段上的点 , 其中 . 并记在该点处的函数值为 . 下尝试说明, 由反证法假设, 我们可以找到某 使得 且 .
- 首先由凸优化问题可知, 对任意 成立.
- 接着考虑 的导数 . 特别地, 当 时, 有 .
- 由 和导数定义可知, 存在足够小的 使得 . 故矛盾.
- 从几何角度看, 意味着向量 与 的夹角为锐角或直角, 即从 指向任意 feasible point 的向量与 (即最陡上升方向)的夹角非钝角, 即从 出发沿着任意 feasible point 的方向, 函数值都是不减的.
Special Case (Unconstrained problem).
特别地, 当 时, 上述条件退化为 . 当 是凸可微函数时, 该条件是全局最优的充要条件; 若 进一步严格凸, 则该最优解唯一. 若为一般非凸可微函数, 则该条件仅为必要条件.
Proof of the unconstrained case
下说明退化之方式.
- 由于 是可微函数, 因此在任意 , 都能找到小球 使得 , 即任意足够靠近 的点都是 feasible point.
- 因此构造 , 对于足够小的 , 仍是 feasible point.
- 因此, . 又由于 , 因此 . 故 .
Special Case (Equality constraints only).
考虑凸优化问题:
其中 是可微函数, , .
对于仅含等式约束的凸优化问题其一阶条件退化为: 存在 使得
其中 是拉格朗日乘子, 该条件亦称为 Lagrange Multiplier Optimality Condition.
Proof of the equality-constrained case
根据初始的一阶最优条件, 应当满足 ; 且对所有满足 的 , 有
由于 同时满足等式约束, 故 . 这说明, 所有的可行位移都应处在 的零空间内, 即 . 换言之, 所有可行的 都应满足 , 即 和 是一一对应的, 故最优性条件可以改写为:
而由于 的取值任意性, 必有 . 这是因为定同时有 和 成立. 故有
而这一表述等价于 . 又根据线性代数结论, 的 Null Space 的正交补空间为 Row Space, 即 的 Column Space, 因此 , 即存在 , 使得 . 记 , 则有
2. Equivalence between Different Forms of Optimization Problems
有一些变换可以将不同形式的优化问题相互转化.
2.1 Transforms of Variables
设 是一个 1-1 映射, 其象能够包含原始问题的定义域 (即 ). 则原始问题:
等价于:
显然, 如果 解决了原始问题, 则 解决了变换后的问题, 反之亦然.
2.2 Transforms of Objective and Constraint Functions
对于单调递增函数 ; 以及函数 满足当且仅当 时 , 函数 满足当且仅当 时 , 则原始问题等价于
Example (Minimizing Euclidean Norm). 无约束的 Euclidean 范数最小化问题:
等价于:
- 虽然这两个问题是等价的, 但并不相同, 二者在定义域上的可微性不同.
2.3 Partial Optimum
如果 关于 是凸函数, 且 是非空凸集, 则函数
也是 的凸函数 (只要 在其定义域内取值有限).
- 其中 , 即 在 方向上的投影.
Proof of convexity under partial minimization
根据 Infimum 的定义, 对于任意 , 以及任意 , 存在 使得:
根据 的定义, 对于对于任意 :
由于 是任意的, 故有:
因此, 该性质说明, 我们能够将一个关于多个变量的凸函数, 通过对部分变量取 Infimum 的方式, 得到一个关于剩余变量的凸函数.
2.4 Eliminating Equality Constraints
考虑如下优化问题:
- 其中 , .
则可以通过如下变换将等式约束消除. 对等式约束, 我们可以确定任意一个 particular solution 满足 . 则任意满足等式约束的 都可以表示为:
- 这是因为对于任意满足 的 , 有 , 因此 .
对于 , 其维度 , 故可以找到一组基 使得 . 换言之, 对于任意 , 都存在 使得:
- 其中 , .
故我们可以将 表示为 , 因此原始问题等价于:
2.5 Slack Variables to Eliminate Inequality Constraints
注意到 等价于 存在 使得 . 因此, 原始问题
等价于:
其中 称作 slack variable. 通过引入 , 每个不等式约束都可以转化为一个等式约束加上一个非负约束.
然而, 除非 都是 affine 函数, 否则该变换并不保持凸性.
2.6 Relaxation Non-affine Equality Constraints
考虑一般的优化问题:
我们总可以找到一个更大的集合 , 考虑
则该问题称作原始问题的 relaxation. 显然, 对于最小化问题, relaxation 问题的最优值不大于原始问题的最优值.
-
特别地, 对于凸但非 affine 的等式约束 , 我们可以考虑将其放松为 , 以确保凸性.
-
注意, relaxation 问题的解不一定是原始问题的可行解, 其只能作为原始问题的下界估计. 若 relaxation 问题的解恰好是原始问题的可行解, 则该解也是原始问题的最优解.