Lecture 10-11 · Duality

References

Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/

Reading: 最优化: 建模、算法与理论, 刘浩洋等, 5.4 小节.

1. Duality and Lagrangian

考虑如下一般的含约束的优化问题 (不要求是凸的):

x \in R^{n} min subject to f (x) g_{i} (x) \leq 0, i \in I h_{j} (x) = 0, j \in E

其中 $f, g_{i}, h_{j}$ 都是定义在 $R^{n}$ 上或其子集上的实值函数. 该问题的可行域为: $X = {x \in R^{n} : g_{i} (x) \leq 0, i \in I, h_{j} (x) = 0, j \in E}$ . 记该问题的最优值为 $p^{*} = in f_{x \in X} f (x)$ . 若存在 $x^{*} \in X$ 使得 $f (x^{*}) = p^{*}$ , 则称 $x^{*}$ 为最优解.

Definition (Lagrangian). 对于上述优化问题, 定义 Lagrangian 函数如下:

L (x, λ, ν) = f (x) + i \in I \sum λ_{i} g_{i} (x) + j \in E \sum ν_{j} h_{j} (x)

其中 $λ = (λ_{i})_{i \in I} \in R_{+}^{∣ I ∣}$ 是与不等式约束相关的 Lagrange 乘子, $ν = (ν_{j})_{j \in E} \in R^{∣ E ∣}$ 是与等式约束相关的 Lagrange 乘子.

Note: Lagrangian domain

注意, 此处 $x$ 的有关全部约束已经被放入了 Lagrangian 函数中. 若 $f, g_{i}, h_{j}$ 在全空间 $R^{n}$ 上有定义, 则 $L$ 可视为定义在 $R^{n}$ 上; 若它们只在子集上定义, 则 $L$ 应理解为定义在这些函数的共同定义域上.

Definition (Lagrange Dual Function). 定义 Lagrange 函数在给定 $λ, ν$ 下关于 $x$ 的下确界为 Lagrange Dual Function $d : R_{+}^{∣ I ∣} \times R^{∣ E ∣} \to [- \infty, + \infty)$ :

d (λ, ν) = x \in R^{n} in f L (x, λ, ν)

给定 $(λ, ν)$ , 若 $L$ 关于 $x$ 是 unbounded below 的, 则 $d (λ, ν) = - \infty$ ; 否则 $d (λ, ν)$ 是一个实数.
由于 $d$ 是关于 $λ, ν$ 的一族逐点定义的 affine 函数的下确界, 可以证明不论原问题的凹凸性, Lagrange Dual Function 是一个凹函数.
记号上, 为避免与约束函数 $g_{i} (x)$ 混淆, 这里用 $d (λ, ν)$ 表示对偶函数.

Lemma (Weak Duality). 对于上述优化问题, $d (λ, ν)$ 是原问题的一个下界, 即对于任意 $λ \in R_{+}^{∣ I ∣}, ν \in R^{∣ E ∣}$ , 恒有:

d (λ, ν) \leq p^{*}

Proof of weak duality

对于可行解 $x \in X$ , 由于 $g_{i} (x) \leq 0$ 和 $h_{j} (x) = 0$ , 可得:
$L (x, λ, ν) = f (x) + i \in I \sum λ_{i} g_{i} (x) + j \in E \sum ν_{j} h_{j} (x) \leq f (x)$

因此 $d (λ, ν) = in f_{x \in R^{n}} L (x, λ, ν) \leq in f_{x \in X} f (x) = p^{*}$ .

$□$

Definition (Lagrange Dual Problem). 定义 Lagrange Dual Problem 如下:

λ \in R_{+}^{∣ I ∣}, ν \in R^{∣ E ∣} max d (λ, ν) = λ \in R_{+}^{∣ I ∣}, ν \in R^{∣ E ∣} max x \in R^{n} in f L (x, λ, ν)

由于 $d$ 是一个凹函数, Lagrange Dual Problem 是一个凸优化问题 (即使原问题不是凸的).

下图是一个具体的例子, 其原函数为 $min f (x) = x^{4} - 50 x^{2} + 100 x$ 是显然非凸的, 但其 Lagrange Dual Function 是凹的 (等价地, $- d$ 是凸的).

当 $d (λ, ν) = - \infty$ 时, 该下界没有意义. 因此往往我们只考虑那些使 $d$ 有界的 $(λ, ν)$ 作为 Lagrange Dual Function 的定义域: $dom (d) = {(λ, ν) : λ \geq 0, d (λ, ν) > - \infty}$ . 对于满足条件的 $(λ, ν) \in dom (d)$ , 称为 dual feasible.

Definition (Strong Duality). 记 Lagrange Dual Problem 的最优值为 $q^{*} = sup_{λ \in R_{+}^{∣ I ∣}, ν \in R^{∣ E ∣}} d (λ, ν)$ , 原问题和 Lagrange Dual Problem 之间的最优值差距为 duality gap: $p^{*} - q^{*} \geq 0$ . 当 $p^{*} = q^{*}$ 时, 称原问题满足 strong duality.

Example (Univariate Lagrangian and Dual Function).

如图左图为 Lagrange 函数一元情况的简化例子.

黑色实线为原问题的目标函数 $f (x)$ , 短横线为不等式约束 $g (x) < 0$ , 因此红色框住的区域为原问题的可行域 $X \approx [- 0.46, 0.46]$ .
此时的 Lagrangian 函数为 $L (x, λ) = f (x) + λ g (x)$ , 其中 $λ \geq 0$ 是与不等式约束相关的 Lagrange 乘子, 在图中为一族点虚线.
- 根据 $λ$ 的取值不同, 该族点虚线的具体形状不同, 但可以看到在可行域内, 该族点虚线都在黑色实线的下方, 即 $L (x, λ) \leq f (x)$ .

右图为对应的 Lagrange Dual Function $d (λ) = in f_{x \in R} L (x, λ)$ 的图像.

可以看到 $d (λ)$ 是一个关于 $λ$ 的凹函数, 对应着左图中一族点虚线的下确界.
图中水平虚线为原问题的最优值 $p^{*}$ . 可以看到对于任意 $λ \geq 0$ , 都有 $d (λ) \leq p^{*}$ , 即满足弱对偶.
由于 $d (λ)$ 的最大值 $q^{*}$ 距离水平虚线 $p^{*}$ 有一个 gap, 因此该例子不满足强对偶.

2. Examples of Duality for Classic Canonical Problems

2.1 Duality for Linear Programming

考虑如下的线性规划问题:

x \in R^{n} min subject to c^{⊤} x A x = b x \geq 0

其中 $c \in R^{n}$ 是目标函数的系数向量, $A \in R^{m \times n}$ 是约束矩阵, $b \in R^{m}$ 是约束的常数项.

对于等式约束, 引入 Lagrange 乘子 $ν \in R^{m}$ ; 对于不等式约束, 引入 Lagrange 乘子 $s \in R_{+}^{n}$ . 则该问题的 Lagrangian 函数为:

L (x, ν, s) = c^{⊤} x + ν^{⊤} (A x - b) - s^{⊤} x = - b^{⊤} ν + (A^{⊤} ν - s + c)^{⊤} x

其 Lagrange Dual Function 为:

d (ν, s) = x \in R^{n} in f L (x, ν, s) = {- b^{⊤} ν, - \infty, if A^{⊤} ν - s + c = 0 otherwise

因此只考虑使得 $A^{⊤} ν - s + c = 0$ 的可行解 $ν, s$ 作为 Lagrange Dual Function 的定义域: $dom (d) = {(ν, s) : A^{⊤} ν - s + c = 0}$ . 对于满足条件的 $(ν, s) \in dom (d)$ , 称为 dual feasible.

Lagrange Dual Problem 为:

ν, s max subject to - b^{⊤} ν A^{⊤} ν - s + c = 0 s \geq 0

令 $y = - ν$ , 并消去 $s$ (即 $s = c - A^{⊤} y \geq 0$ ), 则 Lagrange Dual Problem 可以写为更熟悉的标准形式:

y max subject to b^{⊤} y A^{⊤} y \leq c

若再次将该对偶问题视为原问题, 则该对偶问题的对偶问题与原问题等价. 事实上, LP 问题与其对偶问题互为对偶问题.

2.2 Duality for Quadratic Programming

考虑如下 QP 问题:

x \in R^{n} min subject to \frac{1}{2} x^{⊤} Qx + c^{⊤} x A x = b x \geq 0

其中 $A \in R^{m \times n}$ 是约束矩阵, $b \in R^{m}$ 是约束的常数项.

其 Lagrangian 函数为:

L (x, u, v) = \frac{1}{2} x^{⊤} Qx + c^{⊤} x - u^{⊤} x + v^{⊤} (A x - b)

其中 $u \in R_{+}^{n}$ 是不等式约束 $- x \leq 0$ 的乘子, $v \in R^{m}$ 是等式约束 $A x = b$ 的乘子.

令 $z = c - u + A^{⊤} v$ .

当 $Q \in S_{n}^{++}$ 时, 其 Lagrange Dual Function 为:

d (u, v) = x \in R^{n} in f L (x, u, v) = - \frac{1}{2} z^{⊤} Q^{- 1} z - b^{⊤} v

对应的对偶问题为:

u \geq 0, v \in R^{m} max d (u, v)

若 $Q \in S_{n}^{+}$ 是半正定矩阵 (可能奇异), 则 Lagrange Dual Function 为:

d (u, v) = {- \frac{1}{2} z^{⊤} Q^{†} z - b^{⊤} v, - \infty, if z \in Range (Q) (\Leftrightarrow z ⊥ Null (Q)) otherwise

对应的对偶问题仍为:

u \geq 0, v \in R^{m} max d (u, v)

Example (Quadratic programming dual function).

如图所示是一个二元场景下的 QP 问题的原问题和对偶问题. 可见, 对偶函数 $d (u, v)$ 关于 $(u, v)$ 是凹函数, 且在对偶可行点上都提供了原问题的一个 lower bound.

OptOpt

Explorer

Lecture 10-11 · Duality

1. Duality and Lagrangian

2. Examples of Duality for Classic Canonical Problems

2.1 Duality for Linear Programming

2.2 Duality for Quadratic Programming

Graph View

Table of Contents

Backlinks

OptOpt

Explorer

Lecture 10-11 · Duality

1. Duality and Lagrangian

2. Examples of Duality for Classic Canonical Problems

2.1 Duality for Linear Programming

2.2 Duality for Quadratic Programming

Related Notes

Graph View

Table of Contents

Backlinks