Lecture 12 · Optimality Conditions for Constrained Optimization

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: 最优化: 建模、算法与理论, 刘浩洋等, 5.5、5.6 小节.

0. TL;DR

对于不要求凸性的约束优化问题, 有如下关键结论:

切锥: 从可行域内某点 $x^{*}$ 出发, 所有能够满足约束条件的行动方向之集合. 定义为 $T_{X} (x^{*}) = {d \in R^{n} \exists t_{k} ↓ 0, \exists x_{k} \in X, \frac{x _{k} - x ^{*}}{t _{k}} \to d}$ .
- 由切锥定义的最优条件: 若 $x^{*}$ 是局部极小点, 则有 $d^{⊤} \nabla f (x^{*}) \geq 0, \forall d \in T_{X} (x^{*})$ .
活跃集: 对于可行域 $X$ 内的点 $x$ , 其活跃集定义为 $A (x) = E \cup {i \in I ∣ c_{i} (x) = 0}$ . 即所有等式约束和所有不等式约束中, 在 $x$ 处取等号的约束的集合.
线性化可行方向锥: 对于可行域 $X$ 内的点 $x$ , 其线性化可行方向锥定义为 $F (x) = {d \in R^{n} d^{⊤} \nabla c_{j} (x) = 0, d^{⊤} \nabla c_{i} (x) \leq 0, \forall j \in E \forall i \in A (x) \cap I}$ . 即从当前点 $x$ 出发, 所有能满足约束的一阶移动方向的集合, 其保证在等式约束上沿着等式约束的切向移动, 在不等式约束上沿着使约束函数不增加(朝可行域内部)的方向移动.
- 在约束连续可微的情况下, 切锥一般包含于线性化可行方向锥, 即 $T_{X} (x) \subseteq F (x)$ .
约束的品性: 约束的品性是指约束条件符合某些特定条件的性质. 这些性质往往可以保证在局部最优点 $x^{*}$ 处, 满足 $T_{X} (x^{*}) = F (x^{*})$ . 常见的约束品性有 LICQ, MFCQ, LCQ 等.
- LICQ: 活跃集中的约束之梯度线性无关. 即对于任意 $i \in A (x^{*})$ 有 $\nabla c_{i} (x^{*})$ 线性无关.
- MFCQ: 活跃集中, 若存在向量 $w$ 使得等式约束 $\nabla c_{j} (x^{*})^{⊤} w = 0$ 成立, 不等式约束 $\nabla c_{i} (x^{*})^{⊤} w < 0$ 成立, 则称该点满足 MFCQ.
- LCQ: 若所有的约束函数均是线性函数, 则称该点满足 LCQ.
Karush-Kuhn-Tucker (KKT) 条件: 若 $x^{*}$ 是局部极小点, 则有:
- Stationarity: $\nabla f (x^{*}) + \sum_{j \in E} λ_{j}^{*} \nabla c_{j} (x^{*}) + \sum_{i \in I} μ_{i}^{*} \nabla c_{i} (x^{*}) = 0$
- Primal Feasibility 1: $c_{i} (x^{*}) \leq 0, i \in I$
- Primal Feasibility 2: $c_{j} (x^{*}) = 0, j \in E$
- Dual Feasibility: $μ_{i}^{*} \geq 0, i \in I$
- Complementary Slackness: $μ_{i}^{*} c_{i} (x^{*}) = 0, i \in I$
临界锥: 对于可行域满足 KKT 的点 $x^{*}$ , 其 Critical Cone 定义为 $C (x^{*}) = {d \in F (x^{*}) d^{⊤} \nabla f (x^{*}) = 0}$ . 即在满足 KKT 条件的基础上, 所有一阶线性可行方向中, 那些根据一阶梯度信息无法判断是否为上升下降方向的线性化可行方向.
二阶必要条件: 若 $x^{*}$ 是局部极小点, 且 $T_{X} (x^{*}) = F (x^{*})$ 成立, 则对于 KKT 点 $(x^{*}, λ_{j}^{*}, μ_{i}^{*})$ 有: $d^{⊤} \nabla_{xx}^{2} L (x^{*}, λ_{j}^{*}, μ_{i}^{*}) d \geq 0, \forall d \in C (x^{*}; λ_{j}^{*}, μ_{i}^{*})$ .
二阶充分条件: 若在可行点 $x^{*}$ 处, 存在 Lagrange Multiplier $(λ_{j}^{*}, μ_{i}^{*})$ 使得 KKT 条件成立, 如果: $d^{⊤} \nabla_{xx}^{2} L (x^{*}, λ_{j}^{*}, μ_{i}^{*}) d > 0, \forall d \in C (x^{*}; λ_{j}^{*}, μ_{i}^{*}), d \neq = 0$ . 则 $x^{*}$ 是严格局部极小点.

1. Optimal Condition for General Problem (No Convex Assumption)

1.1 First-Order Optimality Conditions

回顾, 考虑如下一般的含约束的优化问题 (不要求是凸的):

x \in R^{n} min subject to f (x) c_{i} (x) \leq 0, i \in I c_{j} (x) = 0, j \in E

其 Lagrangian 函数为 (统一记号: 等式约束乘子为 $λ_{j}$ , 不等式约束乘子为 $μ_{i} \geq 0$ ):

L (x, λ, μ) = f (x) + j \in E \sum λ_{j} c_{j} (x) + i \in I \sum μ_{i} c_{i} (x)

其 Lagrange Dual Function 为:

g (λ, μ) = x \in R^{n} in f L (x, λ, μ)

1.1.1 Optimality Conditions by Tangent Cone

为定义可行域内的一系列点列的极限状态, 引入切向量和切锥的概念.

Definition (Tangent Vector). 对于可行域 $X$ 内的点列 ${x_{k}}_{k = 1}^{\infty} \subseteq X \subset R^{n}$ , 其极限状态为 $lim_{k \to \infty} x_{k} = x^{*} \in X$ (即该点列逼近 $x^{*}$ ). 若存在向量 $d \in R^{n}$ , 以及一个正数标量序列 ${t_{k}}_{k = 1}^{\infty}$ 且 $t_{k} \to 0$ 使得:

k \to \infty lim \frac{x _{k} - x ^{*}}{t _{k}} = d

则称 $d$ 为 $x^{*}$ 处的切向量.

Definition (Bouligand (Contingent) Tangent Cone). 对于上述点 $x^{*}$ 处的全部切向量之集合, 称为该点处的切锥, 记作 $T_{X} (x^{*})$ , 其数学表达为:

T_{X} (x^{*}) = {d \in R^{n} \exists t_{k} ↓ 0, \exists x_{k} \in X, \frac{x _{k} - x ^{*}}{t _{k}} \to d}

切锥表示从可行域内某点 $x^{*}$ 出发, 所有能够满足约束条件的行动方向之集合.

Example (切锥的例子).

如上图所示. 图中两条曲线分别代表两条约束方程 $c_{1} (x)$ 和 $c_{2} (x)$ 的图像. 左侧为不等式约束, 图中深色阴影部分表示两约束方程构成的可行域 $X$ . 右侧为等式约束, 故可行域只有轮廓本身.
- 对于不等式约束, 其切锥为整个深浅阴影区域, 为一个凸锥.
- 对于等式约束, 其切锥只能取在左图轮廓线上, 即图中两条射线.
- 该例中切锥是凸锥; 但一般非凸可行域下的 Bouligand 切锥未必是凸集.

Theorem (Optimality Conditions by Tangent Cone). 设 $x^{*}$ 是可行域 $X$ 内的一个局部极小点. 若 $f$ 和 $c_{i}, c_{j} (\forall i, j)$ 在 $x^{*}$ 处可微, 则有:

d^{⊤} \nabla f (x^{*}) \geq 0, \forall d \in T_{X} (x^{*})

或等价地:

T_{X} (x^{*}) \cap {d \in R^{n} ∣ d^{⊤} \nabla f (x^{*}) < 0} = \emptyset

其直观的理解为, 从最优点 $x^{*}$ 出发, 所有能够满足约束条件的行动方向, 其与梯度方向的夹角都不应为钝角 (允许直角); 即任何从最优点出发的可行方向都不应是一阶下降方向.

Proof of the tangent cone optimality condition

用反证法, 假设在 $x^{*}$ 处有 $T_{X} (x^{*}) \cap {d \in R^{n} ∣ d^{⊤} \nabla f (x^{*}) < 0} \neq = \emptyset$ , 则记该集合中的某个向量为 $d^{*}$ .

根据切向量的定义, 存在 ${t_{k}}_{k = 1}^{\infty}$ 且 $t_{k} \to 0$ 以及对应的切向量 ${d_{k}}_{k = 1}^{\infty}$ 使得 $x^{*} + t_{k} d_{k} \in X$ .

对 $f$ 在 $x^{*}$ 进行 Taylor 展开, 有:
$f (x^{*} + t_{k} d_{k}) = f (x^{*}) + t_{k} d_{k}^{⊤} \nabla f (x^{*}) + o (t_{k}) = f (x^{*}) + < 0 t_{k} (d^{*})^{⊤} \nabla f (x^{*}) + \to 0 t_{k} (d_{k} - d^{*})^{⊤} \nabla f (x^{*}) + o (t_{k})$

由于 $(d^{*})^{⊤} \nabla f (x^{*}) < 0$ 且 $d_{k} \to d^{*}$ , 对足够大的 $k$ 有:
$f (x^{*} + t_{k} d_{k}) < f (x^{*})$
与 $x^{*}$ 为局部极小点矛盾.

$□$

1.1.2 Optimality Conditions by Linearized Feasible Direction Cone

上述在几何上给出了可行域的判定定理, 然而其计算往往是不容易的. 如下我们需要给出更容易计算的可行方向集合之定义.

Definition (Active Set). 对于可行域 $X$ 内的点 $x$ , 其 active set 定义为:

A (x) = E \cup {i \in I ∣ c_{i} (x) = 0}

即所有等式约束和所有不等式约束中, 在 $x$ 处取等号的约束的集合.

Active set 是对于当前点 $x$ 处, 所有真正起到约束作用的约束的集合. 对于所有 $c_{i} (x) < 0$ 的约束, 其并没有起到约束作用, 在这些该点的微小领域内, 这些约束仍然可以被满足.

Definition (Linearized Feasible Direction Cone). 对于可行域 $X$ 内的点 $x$ , 其 linearized feasible direction cone 定义为:

F (x) = {d \in R^{n} d^{⊤} \nabla c_{j} (x) = 0, d^{⊤} \nabla c_{i} (x) \leq 0, \forall j \in E \forall i \in A (x) \cap I}

该定义的 intuition 如下:
- 我们尝试寻找从当前点 $x$ 出发, 所有能够满足约束条件的行动方向之集合.
- 希望存在微小量 $t > 0$ 使得 $x + t d \in X$ . 故需要对每个约束 $c_{j}, c_{i}$ 求解一阶 Taylor 近似 (即线性化):
  $c_{i} (x + t d) \approx c_{i} (x) + t \nabla c_{i} (x)^{⊤} d \forall i$
- 对于等式约束 $j \in E$ , 要求有 $c_{j} (x + t d) = 0$ , 又由于 $c_{j} (x) = 0$ , 代入上述展开故有:
  $\nabla c_{j} (x)^{⊤} d = 0, \forall j \in E$
  - 站在当前点 $x$ 处, 只能沿着等式约束的切向量方向移动, 即”沿着等式约束的轮廓线”移动.
- 对于不等式约束 $i \in A (x) \cap I$ , 要求有 $c_{i} (x + t d) \leq 0$ , 又由于 $c_{i} (x) = 0$ , 故有:
  $\nabla c_{i} (x)^{⊤} d \leq 0, \forall i \in A (x) \cap I$
  - 站在当前点 $x$ 处, 可行的移动方向必与梯度方向夹角为钝角或直角, 即必往约束的内部(或切向)移动.
    - 为什么梯度方向的钝角或直角方向对应约束内部(或边界切向)? 事实上, 这是因为该约束为 $\leq$ 的不等式约束, 而梯度方向本质上为最陡上升方向, 因此沿梯度方向的正分量为上升方向; 对于 active set 中的点而言, 任何严格上升分量都将导致该不等式约束不成立.

Corollary (Contingent Tangent Cone and Linearized Feasible Direction Cone). 若存在 $x^{*}$ 的邻域 $U$ , 使得全部约束函数 ${c_{i}}_{i \in I}$ 与 ${c_{j}}_{j \in E}$ 在 $U$ 上一阶连续可微, 则对于任意可行点 $x \in U \cap X$ , 满足

T_{X} (x) \subseteq F (x)

观察下述例子:
- 考虑问题 $x \in R min s.t. f (x) = x (- x + 3)^{3} \leq 0$ 其可行域为 $X = [3, \infty)$ .
  - 根据切锥的定义, 可知在 $x = 3$ 处, 其切锥为 $T_{X} (3) = {d ∣ d \geq 0}$ .
  - 又根据线性化可行方向锥的定义, 其梯度(导数)方向为 $c^{'} (x) = - 3 (- x + 3)^{2} ∣_{x = 3} = 0$ , 且该点 $x = 3$ 处该不等式约束是 active 的, 故其线性化可行方向需满足 $0 \cdot d \leq 0$ , 即 $d \in R$ .
  - 故有 $T_{X} (3) \subset F (3)$ .
- 另一方面, 若将约束条件改为 $x \in R min s.t. f (x) = x - x + 3 \leq 0$ 其可行域仍为 $X = [3, \infty)$ .
  - 根据定义, 由于可行域没有改变, 故在 $x = 3$ 处, 其切锥仍为 $T_{X} (3) = {d ∣ d \geq 0}$ .
  - 然而, 其导数发生了变化, 此时 $c^{'} (x) = - 1 ∣_{x = 3} = - 1$ , 故其线性化可行方向需满足 $- 1 \cdot d \leq 0$ , 即 $d \geq 0$ .
  - 此时有 $T_{X} (3) = F (3) = {d ∣ d \geq 0}$ .
- 该例子说明, 即使对于同一个可行域, 只是其约束条件的代数表示发生了变化, 其线性化可行方向锥可能发生变化. 本质上, 这是因为线性化可行方向锥的定义是基于一阶 Taylor 近似, 而在高维表述中该一阶信息可能丢失, 从而影响对于可行方向的判定.

综上, 我们有观察:

线性化可行方向锥易于计算和使用, 但其本身会受到问题的代数表示的影响
切锥相对稳健, 然而其计算往往需要计算极限等复杂操作.

1.1.3 Constraint Qualification

根据上述观察, 引入约束的品性 (Constraint Qualification) 这一概念, 满足该品性的约束往往保证了在最优点 $x^{*}$ 处可以有诸如 $T_{X} (x^{*}) = F (x^{*})$ 的优秀性质.

Definition (Linear Independence Constraint Qualification). 对于可行域 $X$ 内的点 $x$ , 任意 Active set $A (x)$ 中的约束 $\nabla c_{i} (x), i \in A (x)$ 线性无关, 则称该约束在 $x$ 处满足 LICQ.

Warning: 注意

线性无关的是约束的梯度, 而不是约束本身.

Lemma (LICQ Property). 若任意可行点 $x \in X$ 满足 LICQ, 则有:

T_{X} (x) = F (x)

Proof of LICQ property

不失一般性, 假设 active set $A (x) = E \cup I$ 且 $∣ A (x) ∣ = m$ . 记矩阵:
$A (x) = [\nabla c_{1} (x) \nabla c_{2} (x) \dots \nabla c_{m} (x)]^{⊤} \in R^{m \times n}$

由 LICQ 之假设, 各约束之间是线性独立的, 故有 $rank (A (x)) = m$ . 取 $Z \in R^{n \times (n - m)}$ 的列向量张成 $Null (A (x))$ , 则有 $A (x) Z = 0_{m \times (n - m)}$ (即为等式约束的一阶可行方向对应的空间). 此外, 根据 rank-nullity 定理, 有 $rank (A (x)) + nullity (A (x)) = n$ , 故 $rank (Z) = n - m$ .

$Z$ 张成的空间即为贴着活跃约束的边界, 沿着该方向移动不会违反任何约束.

给定任意可行点 $x_{0}$ 与 $d \in F (x_{0})$ , 欲证 $d \in T_{X} (x_{0})$ , 即 $F (x_{0}) \subseteq T_{X} (x_{0})$ . 若命题得证, 再加之 $T_{X} (x_{0}) \subseteq F (x_{0})$ , 则将有 $T_{X} (x_{0}) = F (x_{0})$ .

$□$

Definition (Mangasarian-Fromovitz Constraint Qualification, MFCQ). 给定可行点 $x_{0}$ 及其 active set $A (x_{0})$ , 若存在一个向量 $w \in R^{n}$ 满足:

\nabla c_{i} (x_{0})^{⊤} w \nabla c_{j} (x_{0})^{⊤} w < 0, = 0, \forall i \in A (x_{0}) \cap I \forall j \in E

且等式约束的梯度集合 ${\nabla c_{j} (x_{0})}_{j \in E}$ 线性无关, 则称该约束在 $x_{0}$ 处满足 MFCQ.

可以证明，由 LICQ 可以推出 MFCQ, 但反之不然.
若 MFCQ 成立, 同样可知 $T_{X} (x_{0}) = F (x_{0})$ .

Definition (Linear Constraint Qualification, LCQ). 若优化问题中的全部约束函数 $c_{k} (x), k \in E \cup I$ 都是线性的, 则称线性约束品性满足.

对于线性约束品性, 有 $T_{X} (x) = F (x)$ .
LP, QP 等优化问题自然满足线性约束品性.
LCQ 和 LICQ 直接一般没有必然关联.

1.1.4 Karush-Kuhn-Tucker (KKT) Conditions

回顾含约束问题(不要求凸)的几何最优性条件: 对于局部最优解 $x^{*}$ 和可行域 $X$ , 则任意可行方向 $d$ 都满足:

d^{⊤} \nabla f (x^{*}) \geq 0, \forall d \in T_{X} (x^{*}) (1)

而我们也同样讨论, 这个最优性条件的求解是困难的. 转而我们考虑 Linear Feasible Direction Cone 的定义:

F (x^{*}) = {d \in R^{n} ∣ d^{⊤} \nabla c_{j} (x^{*}) = 0, \forall j \in E; d^{⊤} \nabla c_{i} (x^{*}) \leq 0, \forall i \in A (x^{*}) \cap I} (2)

但也同时指出 $F (x^{*})$ 并不能直接指定 $x^{*}$ 处的最优性条件. 因此我们将验证一些约束品性(Constraint Qualifications), 当 CQ 满足时往往将有 $F (x^{*}) = T_{X} (x^{*})$ 作为桥梁. 这里使用的 $T_{X} (x^{*}) = F (x^{*})$ 是一个较强但常用的充分条件.

因此, 对于既是最优点, 又满足例如 LICQ 的约束品性时, 则 $(1), (2)$ 将同时成立, 故换言之, 下述集合为空集:

⎩ ⎨ ⎧ d d^{⊤} \nabla f (x^{*}) d^{⊤} \nabla c_{i} (x^{*}) d^{⊤} \nabla c_{j} (x^{*}) < 0, \leq 0, \forall i \in A (x^{*}) \cap I = 0, \forall j \in E ⎭ ⎬ ⎫ = \emptyset

这意味着, 在局部最小点 $x^{*}$ 处, 不存在一个可行方向 $d$ 同时满足:
- 一阶可行 (即后两个条件) , 使得 active set 的约束仍然不违反;
- $d^{⊤} \nabla f (x^{*}) < 0$ (第一个条件), 即该方向是下降方向.
然而这一条件的判断仍然不够直接, 下述引理会进一步改进.

Lemma (Farkas’ Lemma). 设 $p, q$ 是两个非负整数, 给定向量组 ${a_{i} \in R^{n}}_{i = 1}^{p}$ 和 ${b_{j} \in R^{n}}_{j = 1}^{q}$ , 以及 $c \in R^{n}$ , 如下两组命题恰有其一成立:

(1) 存在 $d \in R^{n}$ 使得如下条件同时成立:

$d^{⊤} a_{i} = 0, \forall i = 1, \dots, p (F.L.1)$
$d^{⊤} b_{j} \geq 0, \forall j = 1, \dots, q (F.L.2)$
$d^{⊤} c < 0 (F.L.3)$

(2) 存在 ${λ_{i}}_{i = 1}^{p} \in R$ 和 ${μ_{j}}_{j = 1}^{q} \in R_{\geq 0}$ 使得:

c = i = 1 \sum p λ_{i} a_{i} + j = 1 \sum q μ_{j} b_{j} (F.L.4)

Proof of Farkas' lemma

若 $(F.L.4)$ 成立, 对其左右两侧同时乘以 $d^{⊤}$ , 则有:
$d^{⊤} c = i = 1 \sum p λ_{i} d^{⊤} a_{i} + j = 1 \sum q μ_{j} d^{⊤} b_{j}$

此时对于满足 $(F.L.1)$ 和 $(F.L.2)$ 的 $d$ , 其能推出 $d^{⊤} c \geq 0$ , 此时证明 $(F.L.3)$ 不成立.

若 $(F.L.1) \sim (F.L.3)$ 解不存在, 则用反证法结合分离超平面定理, 可以推出 $(F.L.4)$ 成立.

$□$

对照前述的空集条件, 可与 Farkas 引理中的 (1) 对齐: 取 $c = \nabla f (x^{*})$ , $a_{j} = \nabla c_{j} (x^{*})$ ( $j \in E$ ), $b_{i} = - \nabla c_{i} (x^{*})$ ( $i \in A (x^{*}) \cap I$ ). 由 $(F.L.4)$ 得

\nabla f (x^{*}) = j \in E \sum λ_{j}^{*} \nabla c_{j} (x^{*}) - i \in I \cap A (x^{*}) \sum μ_{i}^{*} \nabla c_{i} (x^{*})

其中 $λ_{j}^{*} \in R, j \in E$ 和 $μ_{i}^{*} \geq 0, i \in I \cap A (x^{*})$ .
由于等式乘子符号自由, 重新命名后可写成常见 stationarity 形式:

\nabla f (x^{*}) + j \in E \sum λ_{j}^{*} \nabla c_{j} (x^{*}) + i \in I \cap A (x^{*}) \sum μ_{i}^{*} \nabla c_{i} (x^{*}) = 0

若进一步补充, 对于 $i \in I ∖ A (x^{*})$ 的部分 (即 inactive 的不等式约束), 令 $μ_{i}^{*} = 0$ , 则有:

\nabla f (x^{*}) + j \in E \sum λ_{j}^{*} \nabla c_{j} (x^{*}) + i \in I \sum μ_{i}^{*} \nabla c_{i} (x^{*}) μ_{i}^{*} c_{i} (x^{*}) = 0 = 0, \forall i \in I

其中 $λ_{j}^{*} \in R, j \in E$ 和 $μ_{i}^{*} \geq 0, i \in I$ .

第二个条件 $μ_{i}^{*} c_{i} (x^{*}) = 0, \forall i \in I$ 也称为 Complementary Slackness Condition (CSC).

其表示对于 inactive 的不等式约束, 其对应的 multiplier 为 $0$ ; 对于不为 $0$ 的 multiplier, 其约束一定是 active 的 (即 $c_{i} (x^{*}) = 0$ ).
对于 CSC, 若能够保证 $μ_{i}^{*} = 0$ 和 $c_{i} (x^{*}) = 0$ 有且仅有其一成立, 则说明当前的约束是严格互补松弛的 (Strict Complementary Slackness Condition, SCSC). 一般满足 SCSC 的约束的最优点具有良好性质, 算法收敛速度较快.

Example (不满足 SCSC 的例子).

考虑如下问题:

x \in R min x^{2}, s.t. x \leq 0.

最优解是 $x^{*} = 0$ , 并且该位置对于约束来说也是 active 的.

另一方面, 考虑 KKT stationarity 条件, 其要求:

\nabla f (x^{*}) + μ^{*} \nabla c (x^{*}) = 0 ⟹ (2 x^{*} + μ^{*}) ∣_{x^{*} = 0} = 0 ⟹ μ^{*} = 0.

综上, 该问题是 active 的, 但同时 $μ^{*} = 0$ , 不满足 SCSC. 其直观是, 这个约束虽然卡在边界上, 但并没有阻止目标函数减小. 因为在该点的梯度本来就是 $0$ , 本身便不需要额外的约束来限制梯度.

综上, 总结出如下一阶必要条件, 即 KKT 条件, 并称满足 $(x^{*}, λ_{j}^{*}, μ_{i}^{*})$ 为 KKT 点.

Theorem (KKT Conditions). 考虑如下约束优化问题 (不要求是凸的):

x \in R^{n} min subject to f (x) c_{i} (x) \leq 0, i \in I c_{j} (x) = 0, j \in E

对于局部最优解 $x^{*} \in X$ , 若 $T_{X} (x^{*}) = F (x^{*})$ 成立, 则存在 Lagrange Multiplier $λ_{j}^{*}, μ_{i}^{*}$ 使得如下条件成立:

Stationarity: Primal Feasibility 1: Primal Feasibility 2: Dual Feasibility: Complementary Slackness: \nabla f (x^{*}) + j \in E \sum λ_{j}^{*} \nabla c_{j} (x^{*}) + i \in I \sum μ_{i}^{*} \nabla c_{i} (x^{*}) = 0 c_{i} (x^{*}) \leq 0, \forall i \in I c_{j} (x^{*}) = 0, \forall j \in E μ_{i}^{*} \geq 0, \forall i \in I μ_{i}^{*} c_{i} (x^{*}) = 0, \forall i \in I

这里的 Stationarity 条件是前述 Farkas’ Lemma 的直接推论, 其代表最优点处不存在一阶下降的可行方向. 一般也将其记为 $\nabla_{x} L (x^{*}, λ_{j}^{*}, μ_{i}^{*}) = 0$ .
需要指出, 该条件成立是建立在 $T_{X} (x^{*}) = F (x^{*})$ 成立的前提下的. 这是一个较强假设, 通常由 LICQ、MFCQ、LCQ 等 CQ 保证. 因此 KKT 是一个必要条件, 满足 KKT 条件并不一定是最优点.

1.2 Second-Order Optimality Conditions

对 KKT 点而言, 结合 Stationarity、Dual Feasibility 与 Complementary Slackness 可推出 $d^{⊤} \nabla f (x^{*}) \geq 0, \forall d \in F (x^{*})$ (类比 $y = x^{3}$ 的这种驻点但非局部极值点, 其排除所有能够在一阶情况下让目标函数减小的可行方向). 下面需要通过二阶最优性条件来进一步判断最优点.

Definition (Critical Cone). 设 $(x^{*}, λ_{j}^{*}, μ_{i}^{*})$ 是 KKT 点, 其 Critical Cone 定义为:

C (x^{*}; λ_{j}^{*}, μ_{i}^{*}) = {d \in F (x^{*}) ∣ \nabla c_{i} (x^{*})^{⊤} d = 0, \forall i \in A (x^{*}) \cap I with μ_{i}^{*} > 0}

在 KKT 条件下也等价于:

C (x^{*}; λ_{j}^{*}, μ_{i}^{*}) = {d \in F (x^{*}) ∣ d^{⊤} \nabla f (x^{*}) = 0}

Critical Cone 的 intuition 如下:
- Critical cone 作为 $F (x^{*})$ 的子集, 其继承 $F (x^{*})$ 的性质, 在等式约束下 $\nabla c_{j} (x^{*})^{⊤} d = 0, j \in E$ ; 在活跃不等式约束下 $\nabla c_{i} (x^{*})^{⊤} d \leq 0, i \in A (x^{*}) \cap I$ .
- 同时, 由于满足 KKT 的 Stationarity 条件, 等式左右同乘 $d^{⊤}$ , 有:
  $d^{⊤} \nabla f (x^{*}) + j \in E \sum λ_{j}^{*} d^{⊤} \nabla c_{j} (x^{*}) + i \in I \sum μ_{i}^{*} d^{⊤} \nabla c_{i} (x^{*}) = 0$
  - 由 $F (x^{*})$ 的定义, 全部等式约束均有 $d^{⊤} \nabla c_{j} (x^{*}) = 0$ ; 由互补松弛性全部非活跃不等式约束均有 $μ_{i}^{*} = 0$ . 综合后, 得到 $d^{⊤} \nabla f (x^{*}) + i \in I \cap A (x^{*}) \sum μ_{i}^{*} d^{⊤} \nabla c_{i} (x^{*}) = 0 (†)$
  - 分析该条件, 已知 $μ_{i}^{*} \geq 0$ , $\nabla c_{i} (x^{*})^{⊤} d \leq 0$ , 因此 $d^{⊤} \nabla f (x^{*}) \geq 0$ .
- 综上, 由 KKT + $F (x^{*})$ 的定义, 目前得到的集合为 ${d \in F (x^{*}) ∣ d^{⊤} \nabla f (x^{*}) \geq 0}$ . 即所有一阶线性可行方向上, 目标的一阶变化都不可能是负的. 既然如此, 进一步讨论两种情况:
  - 若 $\nabla f (x^{*})^{⊤} d > 0$ , 说明一阶情况下该方向立即会导致目标函数增加, 故可以直接忽略;
  - 若 $\nabla f (x^{*})^{⊤} d = 0$ , 说明该方向是一阶线性可行方向, 但是否能够在完整情况下同样确保最小, 这是在之前的一阶条件下没办法判断, 而需要进一步研究的.
- 因此在概念上, Critical Cone 即在上述基础上, 提取 $\nabla f (x^{*})^{⊤} d = 0$ 的那些方向作为二阶情况研究的基本对象.
- 其也等价于如下命题: $\nabla c_{i} (x^{*})^{⊤} d = 0, μ_{i}^{*} > 0, \forall i \in A (x^{*}) \cap I$ , 下面将说明这两个命题是等价的.
  - 根据 $(†)$ 式, 可以得到 $\nabla f (x^{*})^{⊤} d = - \sum_{i \in I \cap A (x^{*})} μ_{i}^{*} \nabla c_{i} (x^{*})^{⊤} d$ . 故欲让 $\nabla f (x^{*})^{⊤} d = 0$ , 则需要 RHS 的 $- \sum_{i \in I \cap A (x^{*})} μ_{i}^{*} \nabla c_{i} (x^{*})^{⊤} d = 0$ , 即要求全部 $μ_{i}^{*} > 0$ 的不等式约束都满足 $\nabla c_{i} (x^{*})^{⊤} d = 0$ .
- 综上, critical cone 就是在讨论线性化可行方向中, 那些根据一阶梯度信息无法判断是否为上升下降方向的线性化可行方向.

Theorem (Second-Order Optimality Necessary Condition). 假设 $f$ 与全部活跃约束在 $x^{*}$ 邻域二阶连续可微, 且 $x^{*}$ 是局部最小值, $T_{X} (x^{*}) = F (x^{*})$ 成立, $(x^{*}, λ_{j}^{*}, μ_{i}^{*})$ 是 KKT 点, 则有:

d^{⊤} \nabla_{xx}^{2} L (x^{*}, λ_{j}^{*}, μ_{i}^{*}) d \geq 0, \forall d \in C (x^{*}; λ_{j}^{*}, μ_{i}^{*})

Theorem (Second-Order Optimality Sufficient Condition). 假设对于可行点 $x^{*}$ , 存在一个 Lagrange Multiplier $(λ_{j}^{*}, μ_{i}^{*})$ 使得 KKT 条件成立 (通常配合 LICQ 等 CQ). 如果

d^{⊤} \nabla_{xx}^{2} L (x^{*}, λ_{j}^{*}, μ_{i}^{*}) d > 0, \forall d \in C (x^{*}; λ_{j}^{*}, μ_{i}^{*}), d \neq = 0

则 $x^{*}$ 是严格局部最小值.

Note: 二阶最优性条件

上述充分条件和必要条件并不互为充要. 必要条件允许半正定的退化情景, 然而充分条件是严格正定的.

二阶最优性条件也同样需要某种正定性的保证, 但其只需要在 critical cone 中成立, 而无需考虑在整个可行域内.

Example (二元约束优化问题).

x_{1}, x_{2} min x_{1}^{2} + x_{2}^{2} subject to x_{1}^{2} /4 + x_{2}^{2} - 1 = 0

其 Lagrangian 为:
$L (x_{1}, x_{2}, λ) = x_{1}^{2} + x_{2}^{2} + λ (x_{1}^{2} /4 + x_{2}^{2} - 1)$
对于可行域内任意一点 $(x_{1}, x_{2})$ , 其线性方向可行锥可求解如下:
- 首先求解等式约束的梯度:
  $\nabla c (x_{1}, x_{2}) = (\partial c / \partial x_{1} \partial c / \partial x_{2}) = (x_{1} / 2 2 x_{2})$
- 根据定义, 线性方向可行锥为: $F (x^{*}) = {d \in R^{2} ∣ \nabla c (x^{*})^{⊤} d = 0}$ . 故:
  $F (x_{1}, x_{2}) = {(d_{1}, d_{2}) ∣ \frac{x _{1}}{2} d_{1} + 2 x_{2} d_{2} = 0}$
由于只有一个等式约束, 且该约束梯度非零, 故 LICQ 成立.
求解 Critical Cone $C (x^{*}; λ_{j}^{*}, μ_{i}^{*}) = {d \in F (x^{*}) ∣ d^{⊤} \nabla f (x^{*}) = 0}$ :
- 首先求原函数之梯度:
  $\nabla f (x_{1}, x_{2}) = (\partial f / \partial x_{1} \partial f / \partial x_{2}) = (2 x_{1} 2 x_{2})$
- 根据定义, Critical Cone 为:
  $C (x_{1}, x_{2}; λ_{j}^{*}, μ_{i}^{*}) = {\frac{x _{1}}{2} d_{1} + 2 x_{2} d_{2} = 0, x_{1} d_{1} + x_{2} d_{2} = 0}$
求解 KKT 点, 由 Stationarity 条件:
$⎩ ⎨ ⎧ \frac{\partial L}{\partial x _{1}} = 2 x_{1} + \frac{λ _{1}}{2} x_{1} = 0 \frac{\partial L}{\partial x _{2}} = 2 x_{2} + 2 λ_{1} x_{2} = 0 \frac{\partial L}{\partial λ} = \frac{x _{1}^{2}}{4} + x_{2}^{2} - 1 = 0 ⟹ (x_{1}^{*}, x_{2}^{*}, λ_{1}^{*}) = (\pm 2, 0, - 4) or (0, \pm 1, - 1)$
讨论此处的 KKT 点是否满足二阶最优性条件.
- 首先求解二阶导数:
  $\nabla_{xx}^{2} L (x_{1}, x_{2}, λ_{1}) = (\frac{\partial ^{2} L}{\partial x _{1}^{2}} \frac{\partial ^{2} L}{\partial x _{2} \partial x _{1}} \frac{\partial ^{2} L}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} L}{\partial x _{2}^{2}}) = (2 + \frac{1}{2} λ_{1} 0 0 2 + 2 λ_{1})$
- 对于 $y_{1} = (2, 0, - 4)^{⊤}$ :
  - 其二阶梯度为: $\nabla_{xx}^{2} L (y_{1}) = (00 0 - 6)$
  - 代入 Critical Cone 条件 $C (y_{1})$ 有: $C (y_{1}) = {\frac{2}{2} d_{1} + 2 \cdot 0 \cdot d_{2} = 0, d_{1} \cdot 2 + d_{2} \cdot 0 = 0} = {d_{1} = 0}$
  - 显然 $y_{1}$ 不满足局部最优的二阶必要条件.
    - 例如, 取 $d = (0, 1)^{⊤} \in C (y_{1})$ , 则 $d^{⊤} \nabla_{xx}^{2} L (y_{1}) d = - 6 < 0$ 不满足二阶必要条件.
- 对于 $y_{2} = (0, 1, - 1)^{⊤}$ :
  - 类似地, 其二阶梯度为: $\nabla_{xx}^{2} L (y_{2}) = (3/2 0 00)$
  - 代入 Critical Cone 条件 $C (y_{2})$ 有: $C (y_{2}) = {0 d_{1} + 2 \cdot 1 \cdot d_{2} = 0, d_{1} \cdot 0 + d_{2} \cdot 1 = 0} = {d_{2} = 0}$
  - $y_{2}$ 满足局部最优的二阶必要条件.
    - 对于任意的 $d \neq = 0 \in C (y_{2}) \Leftrightarrow (d_{1}, 0)^{⊤}$ , 其中 $d_{1} \neq = 0$ , 有 $d^{⊤} \nabla_{xx}^{2} L (y_{2}) d = 3 d_{1}^{2} /2 > 0$ 满足二阶必要条件.
综上, $y_{1}$ 不满足局部最优的二阶必要条件, $y_{2}$ 满足局部最优的二阶必要条件.

2. Optimal Condition for Convex Constrained Problem

考虑如下的凸约束优化问题:

x \in D min subject to f (x) c_{i} (x) \leq 0, i = 1, \dots, m A x = b

其中 $f (x)$ 是凸函数, $c_{i} (x)$ 是凸函数, $A x = b$ 是等式约束, $A \in R^{p \times n}$ , $b \in R^{p}$ . $D = dom (f)$ 为目标函数的定义域. 在定义域中所有满足等式约束和不等式约束的点构成的可行域为 $X = {x \in D ∣ c_{i} (x) \leq 0, \forall i; A x = b}$ .

2.1 Slater Condition

凸优化问题具有很好的性质, 其能够给出更强的最优性条件. 其中最著名的就是 Slater Condition. 在给出其严格定义之前, 还要另外定义相对内点集 (Relative Interior).

Definition (Relative Interior). 给定集合 $D$ , 记其 affine hull 为 $Aff (D) = {\sum_{i = 1}^{k} α_{i} x_{i} ∣ x_{1}, \dots, x_{k} \in D; α_{1}, \dots, α_{k} \in R; k \in N_{+}}$ , 即 $D$ 中所有可能的仿射组合的集合. 则 $D$ 的相对内点集, 记作 $RelInt (D)$ , 定义为:

RelInt (D) = {x \in D ∣ \exists δ > 0, s.t. B (x, δ) \cap Aff (D) \subseteq D}

其中 $B (x, δ)$ 是 $x$ 的 $δ$ -邻域, 定义为:

B (x, δ) = {y \in D ∣ ∥ y - x ∥ < δ}

相对内点是内点的推广.
- 想象在一个 $R^{n}$ 空间中, 考虑一个 $D \subseteq R^{k}, k < n$ 的低维子空间. 此时, 不可能找到一个 $n$ 维的球, 其完全落在 $D$ 内部.
- 相对内点则只考虑球与 $D$ 所处的低维子空间相交的部分.

Definition (Slater Condition). 给定凸约束优化问题, 若存在至少一个点 $x \in RelInt (D)$ , 使得对于所有等式约束和不等式约束都严格成立, 即:

{c_{i} (x) < 0, \forall i = 1, \dots, m A x = b

则称该问题满足 Slater Condition.

Note: Slater Condition 可以对仿射约束放松要求

事实上, Slater Condition 可以不要求不等式约束中的仿射约束(线性不等式)严格成立:
$⎩ ⎨ ⎧ c_{i} (x) < 0, \forall i \in I_{non-affine} c_{i} (x) \leq 0, \forall i \in I_{affine} A x = b$
成立. 其中 $I_{non-affine}$ 表示非仿射的不等式约束集合, $I_{affine}$ 表示仿射的不等式约束集合.

Theorem (Slater Condition for Convex Problem). 如果凸优化问题满足 Slater Condition, 则其强对偶性成立, 即:

p^{*} = d^{*}

其中 $p^{*}$ 是原问题的最优值, $d^{*}$ 是对偶问题的最优值.

2.2 First-Order Optimality Conditions

对于凸优化问题, 当 Slater Condition 成立时, KKT 条件是充要条件.

Theorem (First-Order Optimality Conditions for Convex Problem). 如果凸优化问题满足 Slater Condition, 则 $x^{*}, λ_{j}^{*}, μ_{i}^{*}$ 是全局最优解当且仅当如下 KKT 条件成立:

Stationarity: Primal Feasibility 1: Primal Feasibility 2: Dual Feasibility: Complementary Slackness: 0 \in \partial f (x^{*}) + j \in E \sum λ_{j}^{*} a_{j} + i \in I \sum μ_{i}^{*} \partial c_{i} (x^{*}) c_{i} (x^{*}) \leq 0, \forall i \in I A x^{*} = b \forall j \in E μ_{i}^{*} \geq 0, \forall i \in I μ_{i}^{*} c_{i} (x^{*}) = 0, \forall i \in I

其中 $λ_{j}^{*}, μ_{i}^{*}$ 是对偶问题的 Lagrange Multiplier. $a_{j}$ 是 $A^{⊤}$ 的第 $j$ 列.

Note: 关于凸优化的 KKT 条件的说明

上述 KKT 条件事实上即为一般 KKT 条件在凸优化问题下的特例. 注意到, 此处并未对 $f$ 和 $c_{i}$ 的可微性进行约束, 故采用的是次梯度 (Subgradient) 的形式. 当 $f$ 和 $c_{i}$ 都是可微凸函数时, 可以将其替换为梯度 (Gradient) 的形式.

由上述定理的充分性说明, 若 Slater 条件满足, 当我们求出凸优化问题的 KKT 点后, 可以直接对应到原问题的最优解.

需要注意, 上述定理充分性的证明并未使用 Slater 条件.

需要满足 Slater 条件的意义在于, 当凸优化问题最优解存在时, 其最优值点必定满足 KKT 条件.

换言之若 Slater 条件不满足, 即使原问题存在全局最优解, 其最优值点也可能不满足 KKT 条件.

3. Examples

下给出一些具体通过 KKT 条件求解优化问题的例子.

3.1 Example 1: Affine Space Projection

考虑如下问题:

x \in R^{n} min subject to \frac{1}{2} ∥ x - y ∥_{2}^{2} A x = b

其中 $y \in R^{n}$ , $A \in R^{m \times n}$ , $b \in R^{m}$ . 且不妨设 $A$ 是行满秩的, 即 $rank (A) = m$ .

Solution

引入 Lagrange Multiplier $λ \in R^{m}$ , 构造 Lagrange 函数:
$L (x, λ) = \frac{1}{2} ∥ x - y ∥_{2}^{2} + λ^{⊤} (A x - b)$

由于只有等式约束, Slater 条件自动满足. 故 $x^{*}$ 是全局最优解当且仅当如下 KKT 条件成立:
$x^{*} - y + A^{⊤} λ = 0 (1) A x^{*} = b (2)$

可以解得:
$λ = (A A^{⊤})^{- 1} (A y - b)$

代入 $(1)$ :
$x^{*} = y - A^{⊤} (A A^{⊤})^{- 1} (A y - b)$

OptOpt

Explorer

Lecture 12 · Optimality Conditions for Constrained Optimization

0. TL;DR

1. Optimal Condition for General Problem (No Convex Assumption)

1.1 First-Order Optimality Conditions

1.1.1 Optimality Conditions by Tangent Cone

1.1.2 Optimality Conditions by Linearized Feasible Direction Cone

1.1.3 Constraint Qualification

1.1.4 Karush-Kuhn-Tucker (KKT) Conditions

1.2 Second-Order Optimality Conditions

2. Optimal Condition for Convex Constrained Problem

2.1 Slater Condition

2.2 First-Order Optimality Conditions

3. Examples

3.1 Example 1: Affine Space Projection

Graph View

Table of Contents

Backlinks

OptOpt

Explorer

Lecture 12 · Optimality Conditions for Constrained Optimization

0. TL;DR

1. Optimal Condition for General Problem (No Convex Assumption)

1.1 First-Order Optimality Conditions

1.1.1 Optimality Conditions by Tangent Cone

1.1.2 Optimality Conditions by Linearized Feasible Direction Cone

1.1.3 Constraint Qualification

1.1.4 Karush-Kuhn-Tucker (KKT) Conditions

1.2 Second-Order Optimality Conditions

2. Optimal Condition for Convex Constrained Problem

2.1 Slater Condition

2.2 First-Order Optimality Conditions

3. Examples

3.1 Example 1: Affine Space Projection

Related Notes

Graph View

Table of Contents

Backlinks