Lecture 03 · Convexity II: Convex Optimization Problems

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: Boyd & Vandenberghe, Convex Optimization, Sections 3.2.5, 4.1.3, and 4.2.

1. Optimization Problems

1.1 Problem Formulation

回顾, 一个凸优化问题具有如下形式:

x \in D min s.t. f (x) g_{i} (x) \leq 0, i = 1, \dots, m A x = b

其中 $f, g_{i}$ 是凸函数, optimization domain $D = ⋂_{i = 1}^{m} dom (g_{i}) \cap dom (f)$ 是凸集. $f$ 称作 criterion 或 objective function. $g_{i}$ 称作 inequality constraint functions.
对于满足所有约束条件的 $x$ 称作 feasible point, 否则称作 infeasible point. 若 $x$ 是 feasible point 且 $g_{i} (x) = 0$ 对某些 $i$ 成立, 则称该约束条件 $g_{i}$ 在 $x$ 处为 active constraint, 否则称为 inactive constraint.
若存在 $x^{*}$ 是所有 feasible point 中使 $f (x)$ 取得最小值的点, 则称 $x^{*}$ 为 optimal point 或该问题的 solution, 最小值 $f (x^{*})$ 称作 optimal value. 若 $x$ 是 feasible point, 且有 $f (x) \leq p^{⋆} + ϵ$ , 则称 $x$ 为 $ϵ$ -suboptimal point.

同时方便起见, 定义优化问题的最优值 $p^{⋆}$ :

p^{⋆} = in f {f (x) ∣ g_{i} (x) \leq 0, \forall i; A x = b}

这里 $p^{⋆}$ 可能为 $- \infty$ , 若存在 feasible point 使得 $f (x)$ 可以任意小, 则称该问题为 unbounded below.

1.2 Global and Local Optimality

若优化问题有解, 则记所有最优解组成的集合为 $X_{opt}$ :
$X_{opt} = {x ∣ g_{i} (x) \leq 0, \forall i; A x = b; f (x) = p^{⋆}}$
若优化问题对于 $ϵ > 0$ 满足
$f (x) \leq p^{⋆} + ϵ$
则称 $x$ 为 $ϵ$ -suboptimal point.
若对于某个 feasible point $x_{0}$ , 存在某个 $R > 0$ , 满足
$f (x_{0}) = in f {f (z) ∣ g_{i} (z) \leq 0, \forall i; A z = b; ∥ z - x_{0} ∥_{2} \leq R}$
则称 $x_{0}$ 为该优化问题的局部最优解.

关于最优解集, 有两条重要性质:

由于 $f$ 和 $g_{i}$ 均为凸函数, 且约束条件均为凸集, 因此 $X_{opt}$ 也是凸集.
Proof of convexity of the optimal solution set
- 假设 $x_{1}, x_{2} \in X_{opt}$ , 则对任意 $θ \in [0, 1]$ , 有:
  - $g_{i} (θ x_{1} + (1 - θ) x_{2}) \leq θ g_{i} (x_{1}) + (1 - θ) g_{i} (x_{2}) \leq 0$ , 因此 $θ x_{1} + (1 - θ) x_{2}$ 满足不等式约束条件.
  - $A (θ x_{1} + (1 - θ) x_{2}) = θ A x_{1} + (1 - θ) A x_{2} = θ b + (1 - θ) b = b$ , 因此 $θ x_{1} + (1 - θ) x_{2}$ 满足等式约束条件.
  - $f (θ x_{1} + (1 - θ) x_{2}) \leq θ f (x_{1}) + (1 - θ) f (x_{2}) = p^{⋆}$ , 因此 $θ x_{1} + (1 - θ) x_{2}$ 也是最优解.
- 综上, $θ x_{1} + (1 - θ) x_{2} \in X_{opt}$ , 因此 $X_{opt}$ 是凸集.
$□$
若 $f$ 严格凸, 则最优解若存在则唯一. 故可立刻推出任意局部最优解也是全局最优解.
Proof of uniqueness under strict convexity
- 假设存在 $x_{1}, x_{2} \in X_{opt}$ , 且 $x_{1} \neq = x_{2}$ , 则对任意 $θ \in (0, 1)$ , 有:
  - $f (θ x_{1} + (1 - θ) x_{2}) < θ f (x_{1}) + (1 - θ) f (x_{2}) = p^{⋆}$ , 这与 $p^{⋆}$ 为最小值矛盾.
- 因此, 最优解唯一.
$□$

1.3 Different Forms of Convex Optimization Problems

对于上述的优化问题, 我们还可以等价地给出其等价形式:

x min f (x) s.t. x \in C

其中 $C = {x ∣ g_{i} (x) \leq 0, \forall i; A x = b}$ 是约束条件的可行域, 即所有满足约束条件的 $x$ 的集合.

亦或通过引入 indicator function $δ_{C} (x)$ , 将问题转化为如下无约束优化问题:

x min f (x) + δ_{C} (x)

其中 $δ_{C} (x)$ 是 indicator function, 定义为:
$δ_{C} (x) = {0 \infty if x \in C otherwise$

Example (LASSO). 给定 $y \in R^{n}$ , $X \in R^{n \times p}$ , LASSO 问题定义为:

β \in R^{p} min s.t. ∥ y - X β ∥_{2}^{2} ∥ β ∥_{1} \leq λ

若 $n \geq p$ 且 $X$ 是列满秩的, 则该问题的解是唯一的.

Proof of uniqueness in the full-column-rank case

考虑 $\nabla^{2} ∥ y - X β ∥_{2}^{2} = 2 X^{⊤} X$ , 由于 $X$ 是列满秩的, 因此 $X^{⊤} X$ 是正定矩阵, 故 $∥ y - X β ∥_{2}^{2}$ 是严格凸函数, 因此该问题的解唯一.

$□$
若 $n < p$ 的高维场景, 则该问题可能存在多个解.

Example (SVM). 考虑如下支持向量机(SVM)的优化问题. 对于给定的训练数据集 ${(x_{i}, y_{i})}_{i = 1}^{n}$ , 其中 $x_{i} \in R^{p}$ 是样本特征, $y_{i} \in {- 1, 1}$ 是样本标签, SVM 的优化问题定义为 (其中 $ξ = (ξ_{1}, \dots, ξ_{n})^{⊤}$ 是松弛变量, 允许一定程度的分类错误):

β \in R^{p}, β_{0} \in R, ξ \in R^{n} min s.t. \frac{1}{2} ∥ β ∥_{2}^{2} + C i = 1 \sum n ξ_{i} y_{i} (x_{i}^{⊤} β + β_{0}) \geq 1 - ξ_{i}, i = 1, \dots, n ξ_{i} \geq 0, i = 1, \dots, n

1.4 First-Order Optimality Conditions

Theorem (First-Order Optimality Condition). 给定可微的凸函数 $f$ , 考虑如下优化问题:

x min f (x) s.t. x \in C

则 $x^{*}$ 是该问题的最优解当且仅当:

\nabla f (x^{*})^{⊤} (x - x^{*}) \geq 0, \forall x \in C (⋆)

First-order optimality condition illustration

Proof of the first-order optimality condition

$(⋆) \Rightarrow x^{*}$ 是最优解:

由凸性可知, 对于 $x^{*}$ 及任意 $y \in dom (f)$ , 有
$f (y) \geq f (x^{*}) + \nabla f (x^{*})^{⊤} (y - x^{*})$

由 $(⋆)$ 可知, 对于任意 $y \in C$ , 有 $\nabla f (x^{*})^{⊤} (y - x^{*}) \geq 0$ .

又由于 $C \subseteq dom (f)$ , 因此 $f (y) \geq f (x^{*})$ 对任意 $y \in C$ 成立, 即 $x^{*}$ 是最优解.

$x^{*}$ 是最优解 $\Rightarrow (⋆)$ :

用反证法, 假设 $x^{*}$ 是最优解但存在 $y \in C$ 使得 $\nabla f (x^{*})^{⊤} (y - x^{*}) < 0$ .

此时考虑从 $x^{*}$ 到 $y$ 的线段上的点 $z (t) = t y + (1 - t) x^{*}$ , 其中 $t \in [0, 1]$ . 并记在该点处的函数值为 $g (t) := f (z (t))$ . 下尝试说明, 由反证法假设, 我们可以找到某 $t > 0$ 使得 $z (t) \in C$ 且 $g (t) < g (0) = f (x^{*})$ .

首先由凸优化问题可知, $z (t) \in C$ 对任意 $t \in [0, 1]$ 成立.

接着考虑 $g (t)$ 的导数 $d g (t) / d t = \nabla f (z (t))^{⊤} \frac{d z ( t )}{d t} = \nabla f (z (t))^{⊤} (y - x^{*})$ . 特别地, 当 $t = 0$ 时, 有 $d g (0) / d t = \nabla f (x^{*})^{⊤} (y - x^{*}) < 0$ .

由 $g^{'} (0) < 0$ 和导数定义可知, 存在足够小的 $t_{0} > 0$ 使得 $g (t_{0}) < g (0) = f (x^{*})$ . 故矛盾.

从几何角度看, $\nabla f (x^{*})^{⊤} (y - x^{*}) \geq 0$ 意味着向量 $y - x^{*}$ 与 $\nabla f (x^{*})$ 的夹角为锐角或直角, 即从 $x^{*}$ 指向任意 feasible point 的向量与 $\nabla f (x^{*})$ (即最陡上升方向)的夹角非钝角, 即从 $x^{*}$ 出发沿着任意 feasible point 的方向, 函数值都是不减的.

$□$

Special Case (Unconstrained problem).

特别地, 当 $C = R^{n}$ 时, 上述条件退化为 $\nabla f (x^{*}) = 0$ . 当 $f$ 是凸可微函数时, 该条件是全局最优的充要条件; 若 $f$ 进一步严格凸, 则该最优解唯一. 若为一般非凸可微函数, 则该条件仅为必要条件.

Proof of the unconstrained case

下说明退化之方式.

由于 $f$ 是可微函数, 因此在任意 $x \in dom (f)$ , 都能找到小球 $B (x, ϵ)$ 使得 $B (x, ϵ) \subseteq dom (f)$ , 即任意足够靠近 $x$ 的点都是 feasible point.

因此构造 $y = x^{*} - ϵ \nabla f (x^{*})$ , 对于足够小的 $ϵ > 0$ , $y$ 仍是 feasible point.

因此, $\nabla f (x^{*})^{⊤} (y - x^{*}) = \nabla f (x^{*})^{⊤} (- ϵ \nabla f (x^{*})) = - ϵ ∥\nabla f (x^{*}) ∥_{2}^{2} \geq 0$ . 又由于 $ϵ > 0$ , 因此 $∥\nabla f (x^{*}) ∥_{2}^{2} = 0$ . 故 $\nabla f (x^{*}) = 0$ .

$□$

Special Case (Equality constraints only).

考虑凸优化问题:

x \in R^{n} min f (x) s.t. A x = b

其中 $f$ 是可微函数, $A \in R^{m \times n}$ , $b \in R^{m}$ .

对于仅含等式约束的凸优化问题其一阶条件退化为: 存在 $u^{*} \in R^{m}$ 使得

\nabla f (x^{*}) + A^{⊤} u^{*} = 0

其中 $u^{*}$ 是拉格朗日乘子, 该条件亦称为 Lagrange Multiplier Optimality Condition.

Proof of the equality-constrained case

根据初始的一阶最优条件, $x^{*}$ 应当满足 $A x^{*} = b$ ; 且对所有满足 $A y = b$ 的 $y$ , 有
$\nabla f (x^{*})^{⊤} (y - x^{*}) \geq 0.$

由于 $y, x^{*}$ 同时满足等式约束, 故 $A (y - x^{*}) := A u = 0$ . 这说明, 所有的可行位移都应处在 $A$ 的零空间内, 即 $u \in Nul (A) = {u ∣ A u = 0}$ . 换言之, 所有可行的 $y$ 都应满足 $y = x^{*} + u, u \in Nul (A)$ , 即 $y$ 和 $u$ 是一一对应的, 故最优性条件可以改写为:
$\nabla f (x^{*})^{⊤} u \geq 0, \forall u \in Nul (A)$

而由于 $u$ 的取值任意性, 必有 $\nabla f (x^{*})^{⊤} u = 0$ . 这是因为定同时有 $\nabla f (x^{*})^{⊤} u \geq 0$ 和 $\nabla f (x^{*})^{⊤} (- u) \geq 0$ 成立. 故有
$\nabla f (x^{*})^{⊤} u = 0, \forall u \in Nul (A)$

而这一表述等价于 $\nabla f (x^{*}) ⊥ Nul (A)$ . 又根据线性代数结论, $A$ 的 Null Space 的正交补空间为 Row Space, 即 $A^{⊤}$ 的 Column Space, 因此 $\nabla f (x^{*}) \in Col (A^{⊤})$ , 即存在 $v \in R^{m}$ , 使得 $\nabla f (x^{*}) = A^{⊤} v$ . 记 $u^{*} = - v$ , 则有
$\nabla f (x^{*}) + A^{⊤} u^{*} = 0.$

$□$

2. Equivalence between Different Forms of Optimization Problems

有一些变换可以将不同形式的优化问题相互转化.

2.1 Transforms of Variables

设 $ϕ : R^{n} \to R^{n}$ 是一个 1-1 映射, 其象能够包含原始问题的定义域 $D$ (即 $ϕ (dom (ϕ)) \supseteq D$ ). 则原始问题:

min f (x) s.t. g_{i} (x) h_{j} (x) \leq 0, i = 1, \dots, m = 0, j = 1, \dots, p

等价于:

min f (ϕ (z)) := \tilde{f} (z) s.t. g_{i} (ϕ (z)) := \tilde{g}_{i} (z) h_{j} (ϕ (z)) := \tilde{h}_{j} (z) \leq 0, i = 1, \dots, m = 0, j = 1, \dots, p

显然, 如果 $x$ 解决了原始问题, 则 $z = ϕ^{- 1} (x)$ 解决了变换后的问题, 反之亦然.

2.2 Transforms of Objective and Constraint Functions

对于单调递增函数 $ψ_{0} : R \to R$ ; 以及函数 $ψ_{1}, \dots, ψ_{m} : R \to R$ 满足当且仅当 $t \leq 0$ 时 $ψ_{i} (t) \leq 0$ , 函数 $ψ_{m + 1}, \dots, ψ_{m + p} : R \to R$ 满足当且仅当 $t = 0$ 时 $ψ_{j} (t) = 0$ , 则原始问题等价于

min ψ_{0} (f (x)) s.t. ψ_{i} (g_{i} (x)) ψ_{m + j} (h_{j} (x)) := \tilde{f} (x) := \tilde{g}_{i} (x) \leq 0, i = 1, \dots, m := \tilde{h}_{j} (x) = 0, j = 1, \dots, p

Example (Minimizing Euclidean Norm). 无约束的 Euclidean 范数最小化问题:

x min ∥ A x - b ∥_{2}

等价于:

x min ∥ A x - b ∥_{2}^{2}

虽然这两个问题是等价的, 但并不相同, 二者在定义域上的可微性不同.

2.3 Partial Optimum

如果 $f$ 关于 $(x, y)$ 是凸函数, 且 $C$ 是非空凸集, 则函数

g (x) = y \in C in f f (x, y)

也是 $x$ 的凸函数 (只要 $g (x)$ 在其定义域内取值有限).

其中 $dom (g) = {x ∣ \exists y \in C, s.t. (x, y) \in dom (f)}$ , 即 $dom (f)$ 在 $x$ 方向上的投影.

Proof of convexity under partial minimization

根据 Infimum 的定义, 对于任意 $x_{1}, x_{2} \in dom (g)$ , 以及任意 $ϵ > 0$ , 存在 $y_{1}, y_{2} \in C$ 使得:
$g (x_{1}) g (x_{2}) \geq f (x_{1}, y_{1}) - ϵ \geq f (x_{2}, y_{2}) - ϵ$

根据 $g$ 的定义, 对于对于任意 $θ \in [0, 1]$ :
$g (θ x_{1} + (1 - θ) x_{2}) = y \in C in f f (θ x_{1} + (1 - θ) x_{2}, y) \leq f (θ x_{1} + (1 - θ) x_{2}, θ y_{1} + (1 - θ) y_{2}) (Infimum) \leq θ f (x_{1}, y_{1}) + (1 - θ) f (x_{2}, y_{2}) (Jensen Ineq.) = θ g (x_{1}) + (1 - θ) g (x_{2}) + ϵ (Infimum)$

由于 $ϵ > 0$ 是任意的, 故有:
$g (θ x_{1} + (1 - θ) x_{2}) \leq θ g (x_{1}) + (1 - θ) g (x_{2})$

$□$

因此, 该性质说明, 我们能够将一个关于多个变量的凸函数, 通过对部分变量取 Infimum 的方式, 得到一个关于剩余变量的凸函数.

2.4 Eliminating Equality Constraints

考虑如下优化问题:

x \in R^{n} min f (x) s.t. A x = b, g_{j} (x) \leq 0, j = 1, \dots, p

其中 $A \in R^{m \times n}$ , $b \in R^{m}$ .

则可以通过如下变换将等式约束消除. 对等式约束, 我们可以确定任意一个 particular solution $x_{0}$ 满足 $A x_{0} = b$ . 则任意满足等式约束的 $x$ 都可以表示为:

x = x_{0} + v, where v \in Nul (A)

这是因为对于任意满足 $A x = b$ 的 $x$ , 有 $A (x - x_{0}) = 0$ , 因此 $v := x - x_{0} \in Nul (A)$ .

对于 $Nul (A)$ , 其维度 $dim (Nul (A)) = n - rank (A) := k$ , 故可以找到一组基 ${ϕ_{1}, \dots, ϕ_{k}}$ 使得 $Nul (A) = span {ϕ_{1}, \dots, ϕ_{k}}$ . 换言之, 对于任意 $v \in Nul (A)$ , 都存在 $z_{1}, \dots, z_{k} \in R$ 使得:

v = i = 1 \sum k z_{i} ϕ_{i} := Φ z,

其中 $Φ = [ϕ_{1}, \dots, ϕ_{k}] \in R^{n \times k}$ , $z = (z_{1}, \dots, z_{k})^{⊤} \in R^{k}$ .

故我们可以将 $x$ 表示为 $x = x_{0} + Φ z$ , 因此原始问题等价于:

z \in R^{k} min f (x_{0} + Φ z), s.t. g_{j} (x_{0} + Φ z) \leq 0, j = 1, \dots, p

2.5 Slack Variables to Eliminate Inequality Constraints

注意到 $g_{i} (x) \leq 0$ 等价于存在 $s_{i} \geq 0$ 使得 $g_{i} (x) + s_{i} = 0$ . 因此, 原始问题

x min s.t. f (x) g_{i} (x) \leq 0, i = 1, \dots, m; h_{j} (x) = 0, j = 1, \dots, p

等价于:

x, s min s.t. f (x) g_{i} (x) + s_{i} = 0, i = 1, \dots, m; h_{j} (x) = 0, j = 1, \dots, p; s_{i} \geq 0, i = 1, \dots, m

其中 $s_{i}$ 称作 slack variable. 通过引入 $s_{i}$ , 每个不等式约束都可以转化为一个等式约束加上一个非负约束.

然而, 除非 $g_{i}, i = 1, \dots, m$ 都是 affine 函数, 否则该变换并不保持凸性.

2.6 Relaxation Non-affine Equality Constraints

考虑一般的优化问题:

x min f (x) s.t. x \in C

我们总可以找到一个更大的集合 $\tilde{C} \supseteq C$ , 考虑

x min f (x) s.t. x \in \tilde{C}

则该问题称作原始问题的 relaxation. 显然, 对于最小化问题, relaxation 问题的最优值不大于原始问题的最优值.

特别地, 对于凸但非 affine 的等式约束 $h_{j} (x) = 0$ , 我们可以考虑将其放松为 $h_{j} (x) \leq 0$ , 以确保凸性.
注意, relaxation 问题的解不一定是原始问题的可行解, 其只能作为原始问题的下界估计. 若 relaxation 问题的解恰好是原始问题的可行解, 则该解也是原始问题的最优解.

OptOpt

Explorer

Lecture 03 · Convexity II: Convex Optimization Problems

1. Optimization Problems

1.1 Problem Formulation

1.2 Global and Local Optimality

1.3 Different Forms of Convex Optimization Problems

1.4 First-Order Optimality Conditions

2. Equivalence between Different Forms of Optimization Problems

2.1 Transforms of Variables

2.2 Transforms of Objective and Constraint Functions

2.3 Partial Optimum

2.4 Eliminating Equality Constraints

2.5 Slack Variables to Eliminate Inequality Constraints

2.6 Relaxation Non-affine Equality Constraints

Graph View

Table of Contents