References
- Lecture: https://www.stat.cmu.edu/~ryantibs/convexopt-F18/
- Reading:
- 最优化: 建模、算法与理论, 刘浩洋等, 2.6 小节 (Conjugate Functions)
- 一文读懂凸优化中的「对偶」概念(二):可以用一个观点解释所有对偶吗? - 江南FLY的文章 - 知乎
- 一文读懂凸优化中的「对偶」概念(三):Fenchel 共轭是什么东西?它有什么用? - 江南FLY的文章 - 知乎
本章将希望通过讨论对偶这一概念在数学中的各种应用, 来串联深化对对偶概念的理解.
1. Dual Norm
Definition (Norm and Semi-Norm). 对于向量空间 , 其上的范数 (Norm) 是一个从 到实数域 的函数, 记为 . 满足以下性质:
- 绝对齐次性: 对于任意 和任意实数 , 有 .
- 三角不等式: 对于任意 , 有 .
- 非负性: 对于任意 , 有 . 并且当且仅当 (零向量) 时, 有 .
- 若对于某范数只满足绝对齐次性和三角不等式, 但允许在某些 时 , 则称为半范数 (Semi-Norm).
范数有如下性质:
-
对于任意范数 , 其都是凸函数.
Proof of norm convexity
立即由三角不等式和齐次性推出。对于任意 和 , 有:
因此, 是凸函数.
Definition (Dual Norm). 对于任意范数 , 其对偶范数 定义为:
对于范数和其对偶范数, 由定义立刻可以推得如下不等关系:
Proof of the dual norm inequality
对任意 , 都有:
而 是单位向量, 因此有:
给定任意一个具体范数, 其对偶范数总是存在的, 例如:
-
对于 范数, 其对偶范数为 范数, 其中 .
-
范数的对偶范数为 范数; 范数的对偶范数为 范数
Proof of the dual norm claim
-
由 Holder’s Inequality 可得:
-
若 , 则有:
-
因此:
-
并且确能找到一个 使得上式等号成立.
-
-
对于 Trace Norm, 其对偶范数为 Nuclear Norm.
- Trace Norm 类比 范数, 定义为 , 其中 是 的奇异值.
- Nuclear Norm 类比 范数, 定义为 , 其中 是 的最大奇异值.
Note: Young's Inequality and Holder's Inequality
Holder’s Inequality 是一个常见的代数不等式, 其证明由 Young’s Inequality 推出. 而对偶相当于是给出了该不等式的几何解释.
Lemma (Young’s Inequality). 设 , 且 满足 , 则对于任意 , 有:
Theorem (Holder’s Inequality). 设 , 且 满足 , 则对任意 , 有:
对偶范数还有一个重要性质:
Proof of the double dual norm identity
考虑如下优化问题:
- 显然, 唯一可行解为 , 故最优解也是 .
其 Lagrangian 为:
其对偶函数为:
若
根据广义 Holder’s Inequality 可得:
故 .
此时 .
若
根据 Dual Norm 的定义, 有:
这说明在单位球内, 至少存在一个 使得 . 故有关系:
此时 .
综上所述, Lagrangian 的对偶函数为:
而 Lagrange 对偶问题本身即为对偶函数的最优值:
最后可以验证, 最开始构造的 是一个满足 Slater 条件的凸优化问题, 满足强对偶性, 故原问题和对偶问题的最优值相等, 即:
2. Conjugate Functions
Definition (Fenchel Conjugate). 对于函数 , 其 Fenchel 共轭 (Fenchel Conjugate) 定义为:
Fenchel 共轭在几何上可以直观理解如下 (此处考虑一元情况).
- 共轭函数将遍历每一个可能的 的取值. 对于当前的 值:
-
考虑一个以 为斜率的直线, 记作 .
-
保证 恒在 的下方, 即 恒成立.
-
在此前提下, 通过移动 使得 与 相切, 则此时的截距 即为 , 即在该 值下, 共轭函数 的值为 .
Proof of the geometric conjugate interpretation
-
对于直线 , 由于其恒在 的下方, 故有:
-
因此:
-
在相切的极端情况下, 表示 已取最大值, 此时有 . 故取相反数, 有 . 即 .
-
-
Fenchel 共轭有如下性质:
- 不论 是否为凸函数, 都是凸函数.
- 若 为凸函数, 则 . 这意味着, 对于凸函数, 共轭函数和凸函数是一一对应的. 给定一个凸函数的共轭函数, 可以唯一确定一个凸函数:
- 即使对于非凸函数, 也有 也能正常定义, 且有 恒成立. 此时, 可以看作是 的一种凸化(convexification)近似.
- Fenchel-Young Inequality: , 有:
- 若 , 则有 .
- 如果函数 是 -strongly convex 的, 则有 是 -smooth 的.
- 对于闭凸函数 及任意 , 有:
Note: Geometric Interpretation and Convexity Revisit
首先补充一些解析几何的基础知识.
给定一个方向向量 以及截距 , 则可以由此定义一个超平面: .
![]()
- 其含义为, 所有在 方向上投影长度为 的点的集合, 即为一个超平面.
- 其中, 为超平面的法向量; 为超平面距离原点的距离, 并且其正负代表了超平面是沿着法向量的正方向还是负方向.
给定超平面 , 其将空间分为两个半空间, 分别记作 和 . 此处符号本身就代表了是沿着 的箭头方向同侧或异侧.
给定凸集 , 固定方向 , 则定存在一个超平面, 使得 中的所有点都在该超平面的同侧, 即支撑超平面 (Supporting Hyperplane) 定理.
- 若记这个 方向上的关于 的支撑超平面为 , ( 称为支撑函数 (Support Function)), 则有:
- 此处可以理解为: 即为超平面的截距项, 相当于是在给定平面的方向角度后, 不断沿着 指向方向移动, 直到恰好和 中的点”相切”, 此时得到的最大距离即为 .
- 支持函数本身还具有如下性质:
- 支持函数本身是凸函数, 且具有齐次性: .
- 两个凸集的 Minkowski Sum 的支撑函数等于两个凸集的支撑函数之和: . 其中 .
- 若集合在 方向上的支撑超平面与集合的交点唯一, 则其在该点可微.
任意凸集也可以表示为其所有的支撑超平面的交集.
Note: Conjugate Functions and Duality
我们可以从 epigraph 的角度来理解 Fenchel 共轭 (参见 Reading References 3).
回忆, 对于凸函数 , 其 epigraph 为这个函数图象及其上方所有点构成的集合, 即:
并且对于凸函数, 其 epigraph 是凸集.
根据支撑超平面的性质, 可以得到, 对于凸集 , 其在 方向上的支撑超平面为 , 其中:
- 进一步, 将方向 分解为 , 其中 和 , 则有:
- 注意到, 在最后一个维度 (即 所在维度) 上, 恒有 , 即 是有下界而无上界的. 因此, 为保证上式有解 (确定一个有穷的超平面), 必须有 (这里为了和后文记号一致, 取 , 则此刻有:
惊! 这里发现, 对于凸函数的 epigraph, 其支撑超平面的截距项 (即支持函数) 竟然就是其 Fenchel 共轭函数! 即:
反过头来, 我们再从代数角度说明共轭函数和支撑函数的关系.
考虑一个关于凸集的指示函数, 即:
其中 是凸集.
易知, 对于该函数, 当 时, ; 当 时, . 因此为取 时, 只有当 时, 函数有界, 即:
该共轭函数恰恰就是刚刚介绍的支撑函数! 这也再次从数学上印证了支撑函数和共轭函数是等价的.
因此, 支撑函数和共轭函数, 其本质相当于都在描述对于凸集的支持平面的超参数化.
2.1 Conjugate of Simple Quadratic Function
- 考虑 ,其中 (即 是 阶实对称正定矩阵)。
- 根据共轭函数的定义,有:
- 易知,对于该函数,这个表达式是关于 的严格 concave 函数,在 处取得极值。因此,共轭函数为:
2.2 Conjugate of Norm
任何范数的共轭是其对偶范数单位球的 indicator, 即:
Warning: 注意区分 Dual Norm 和 Conjugate Norm.
2.3 Lasso Dual
我们下面尝试用这个例子将上述的几个理论和性质串联起来.
给定 , 考虑如下 Lasso 问题:
-
首先, 根据 Lagrange Duality 的思路, 我们需要将该问题转为一个含约束问题. 引入辅助变量 , 则有:
- 则对应的 Lagrangian 为:
- 则对应的 Lagrange Dual Function 为:
- 则对应的对偶问题为:
- 其相当于一个投影问题, 将 投影到一个凸多面体上: .
- 此外, 可以验证 Slater 条件成立, 故强对偶性成立, 最优解必满足 KKT 条件.
- 其中, 关于 的 Stationary 条件为:
- 这说明对偶变量 事实上即为 Lasso 问题的残差, 对偶问题即为在一个 的约束下, 最小化残差.
- 反过来, , 因此原问题的解同时也相当于对偶问题的残差.
-
上述的 Lasso Dual 问题事实上是 Fenchel Duality 的特例. 因此若在不引入辅助变量 的情况下, 也可以直接使用 Fenchel Duality 来求解. 其一般形式为:
给出结论, 其对偶问题为:
-
首先利用该结论求解 Lasso 问题. 将 Lasso 的表达式与 Fenchel Duality 这里的记号对齐, 则有原始形式 , 其中 和 .
-
分别计算 和 的值.
- , 因此根据 Fenchel 共轭的定义, 有:
- , 因此根据 Fenchel 共轭的定义, 有:
-
因此, 其对偶问题为:
其等价于:
-
若进行变量等价代换, 令 , 则有:
此处和 Lasso 问题的对偶问题形式一致.
-
2.4 Duality and Conjugate
最终再强调一下 Duality 和 Conjugate 的关系作为上述的总结.
当我们考虑一个一般的无约束优化问题:
我们可以引入辅助变量 , 则有:
因此其 Lagrange 函数为:
因此其 Lagrange Dual Function 为:
故: 对于 问题, 其对偶问题为 . 对偶和共轭总是这样成对出现的.
3. Dual Cones
Definition (Dual Cone). 对于一个 Cone ( 是锥, 即满足 ), 其对偶锥 (Dual Cone) 定义为:
Figure: Illustration of a dual cone.
对于 Dual Cone, 有如下性质:
- 永远是凸锥, 即使 不是凸的.
- 当且仅当 的半空间包含 .
- 对于凸且闭的 , 有 .
我们同样可以用支撑超平面的方法来理解 Dual Cones 的定义. (参见 Reading Reference 2)
-
首选原始的 , 其作为锥, 天然的就必须以原点为顶点. 而对应的支撑超平面也就必然经过原点
-
而考虑其支撑函数, 有
-
因此, 如果我们从支撑超平面的视角去看,对偶锥是非常平凡的记号, 其表示的就是该凸锥的支撑超平面的所有法向量.
3.1 Dual Cones and Dual Problems
考虑如下一般形式的优化问题:
其中 是凸函数, 是凸锥.
其对偶问题为:
其中 , 是 的 support function. 因此其等价于
其中 是 的对偶锥.