作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

2017 年的时候笔者曾写过互怼的艺术：从零直达WGAN-GP，从一个相对通俗的角度来介绍了 WGAN，在那篇文章中，WGAN 更像是一个天马行空的结果，而实际上跟 Wasserstein 距离没有多大关系。

在本篇文章中，我们再从更数学化的视角来讨论一下 WGAN。当然，本文并不是纯粹地讨论 GAN，而主要侧重于 Wasserstein 距离及其对偶理论的理解。

▲推土机哪家强？成本最低找Wasserstein

本文受启发于著名的国外博文 Wasserstein GAN and the Kantorovich-Rubinstein Duality[1]，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。不管怎样，在此先对前辈及前辈的文章表示致敬。

注：完整理解本文，应该需要多元微积分、概率论以及线性代数等基础知识。还有，本文确实长，数学公式确实多，但是，真的不复杂、不难懂，大家不要看到公式就吓怕了。

Wasserstein距离

显然，整篇文章必然围绕着 Wasserstein 距离（W 距离）来展开。假设我们有了两个概率分布 p(x),q(x)，那么 Wasserstein 距离的定义为：

事实上，这也算是最优传输理论中最核心的定义了。

相信我，式 (1) 没有想象中那么难理解。我们来逐项看看。

成本函数

首先 d(x,y) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 x 运输到 y 的成本。常用的 d 是基于 l 范数衍生出来的，比如：

都是常见的选择，其中：

特别指出，其实哪种距离并不是特别重要，因为很多范数都是相互等价的，范数的等价性表明其实最终定义出来的 W 距离都差不多。

成本最小化

然后来看 γ ，条件 γ∈Π[p,q] 意味着：

这也就是说， γ 是一个联合分布，它的边缘分布就是原来的 p 和 q。

事实上 γ 就描述了一种运输方案。不失一般性，设 p 是原始分布，设 q 是目标分布， p(x) 的意思是原来在位置 x 处有 p(x) 量的货物， q(x) 是指最终 x 处要存放的货物量，如果 p(x)>q(x) ，那么就要把 x 处的一部分货物运到别处，反之，如果 p(x)<q(x) ，那么就要从别的地方运一些货物到 x 处。而 γ(x,y) 的意思是指，要从 x 处搬 γ(x,y)dx 那么多的东西到 y 处。

最后是 inf ，这表示下确界，简单来说就是取最小，也就是说，要从所有的运输方案中，找出总运输成本 ∬γ(x,y)d(x,y)dxdy 最小的方案，这个方案的成本，就是我们要算的 W[p,q] 。

如果将上述比喻中的“货物”换成“沙土”，那么 Wasserstein 距离就是在求最省力的“搬土”方案了，所以 Wasserstein 距离也被称为“推土机距离”（Earth Mover's Distance）。

最后改编一张开头提到的国外博文的图片，来展示这个“推土”过程：

▲推土机距离图示。左边p(x)每处的沙土被分为若干部分，然后运输到右端q(x)的同色的位置（或者不动）

矩阵形式

逐项分析完含义之后，现在我们再来完成地重述一下问题，我们实际上在求下式的最小值：

其中 d(x,y) 是事先给定的，而这个最小值要满足如下约束：

认真盯着式 (5)，考虑到积分只是求和的极限形式，所以我们可以把 γ(x,y) 和 d(x,y) 离散化，然后看成很长很长的（列）向量 Γ 和 D：

所以式 (5) 相当于就是将 Γ 和 D 对应位置相乘，然后求和，这不就是内积 ⟨Γ,D⟩ 了吗？

如果还没理解这一点，那么请再好好地盯一会式 (5)，头脑中想象着将 x,y 分区间离散化的过程，再想想积分的定义，相信这并不难理解。

如果已经理解了这一点，那就好办了，我们可以把约束条件 (6) 也这样看：把 p(x),q(x) 分别看成一个长向量，然后还可以拼起来，把积分也看成求和，这时候约束条件 (6) 也可以写成矩阵形式 AΓ=b：

最后不能忘记的是 Γ ≥ 0 ，它表示 Γ 的每个分量都大于等于 0。

线性规划问题

现在问题可以用一行字来描述：

这就是“线性约束下的线性函数最小值”的问题，它就是我们在高中时就已经接触过的线性规划问题了。可见，虽然原始问题足够复杂，又有积分又有下确界的，但经过转写，它本质上就是一个并不难理解的线性规划问题（当然，“不难理解”并不意味着“容易求解”）。

线性规划与对偶

让我们用更一般的记号，把线性规划问题重写一遍，常见的形式有两种：

这两种形式本质上是等价的，只不过在讨论第一种的时候相对简单一点（真的只是简单一点点，并没有本质差别），而从 (9) 式可以知道，我们目前只关心第一种情况。

注意，为了避免混乱，我们必须声明一下各个向量的大小。我们假设每个向量都是列向量，经过转置 ⊤ 之后就代表一个行向量，

都是 n 维向量，其中 c 也就是权重，

就是对 x 的各个分量加权求和；

是 m 维向量，自然

是一个 m×n 的矩阵了， Ax=b 实际上就是描述了 m 个等式约束。

弱对偶形式

在规划和优化问题中，“对偶形式”是一个非常重要的概念。一般情况下，“对偶”是指某种变换，能将原问题转化为一个等价的、但是看起来几乎不一样的新问题，即：

“对偶”之所以称为“对偶”，是因为将新问题进行同样形式的变换后，通常来说能还原为原问题，即：

即“对偶”像是一面镜子，原问题和新问题相当于“原像”和“镜像”，解决了一个问题，就等价于解决了另一个问题。所以就看哪个问题更简单了。

读者可能还有疑问：“对偶”跟数学中诸如“逆否命题”之类的等价描述有什么区别？其实也没有本质区别，简单来说“对偶”和“逆否命题”都是跟原来的命题完全等价的，但是“对偶”看起来跟原命题很不一样，而“逆否命题”仅仅是原命题的一个逻辑变换。从线性代数的角度来看，“对偶”相当于向量空间中的“原空间”和“补空间”之间的关系。

最大 vs 最小

这里我们先介绍“弱对偶形式”，其实它推导起来还是挺简单的。

我们的目标是

，设置最小值在

处取到，那么我们有

，我们可以在两边乘以一个

，使得等式变成一个标量：

。

如果此时假设

，那么

（因为

），则

。也就是说，在条件

下的任意

总是不大于

，“总是”意味着即使对于最大那个也一样，所以我们就有：

这便称为“弱对偶形式”，它的形式就是：“左边的最大”还大不过“右端的最小”。

几点评注

对于弱对偶形式，也许下面几点值得进一步说明一下：

1. 现在我们将原来的最小值问题变成了一个最大值问题

，这便有了对偶的味道。当然，弱对偶形式之所以“弱”，是因为我们目前找到的对偶形式只是原来问题的一个下界，还没有证明它们二者相等。

2. 弱对偶形式在很多优化问题中（包括非线性优化）都成立。如果二者真的相等，那么就是真正意义上的对偶了，称为强对偶形式。

3. 理论上，我们确实需要证明式 (13) 左右两端相等才能进一步应用它。但从应用角度，其实弱对偶形式给出的下界都已经够用了，因为深度学习中的问题都很复杂，能有一个近似的目标去优化都已经很不错了。

4. 读者可能会想问：前面我们为什么要假设

而不干脆假设

？假设后者当然简单很多，但问题是后者在实践中很难实现，所以只能假设前者。

强对偶形式

上面已经说了，从实践角度其实弱对偶形式已经够用了。但是为了让对完整理论的读者也有更多收获，这里继续把“强对偶形式”也论证一番。对于只关心 WGAN 本身的读者来说，可以考虑跳过这部分。

所谓强对偶形式，也就是：

注意前面已经说了，弱对偶形式对于很多优化问题都成立，但强对偶形式不一定成立。而对于线性规划来说，强对偶形式是成立的。

Farkas引理

强对偶形式的证明，主要用到称之为“Farkas 引理”的结论：

对于固定的矩阵

和向量

，下面两个选项有且只有一个成立：

1. 存在

且 x≥0，使得Ax=b；

2. 存在

使得

且

。

什么鬼？又大又小又转置的？能不能说人话？

其实这个引理还真有一个很直观的几何解释，只不过几何解释翻译成代数语言就不简单了。几何解释的出发点是我们去考虑如下的向量集合：

这个集合的含义是：我们将 A 看成是 n 个 m 维列向量的组合。

那么上述集合实际上就是所有 a1,a2,…,an 的非负线性组合。那这个集合是个啥呢？答案是：一个锥，如图所示。

▲给定向量的非负线性组合构成这些向量围成的一个锥

现在我们随便给定一个向量 b，那么显然它只有两种可能性，而且必有一种成立：1. 在锥内（包括边界）；2. 在锥外。这当然是废话，但是将它翻译成代数语言，那就不是废话了。

▲给定的向量在锥内，意味着可以表示为非负线性组合

▲给定的向量在锥外，我们可以找到一个“标杆”向量与之对比

如果它在锥内，那么根据锥本身的定义，它就可以表示为 a1,a2,…,an 的非负线性组合（表示方式可能不唯一），也就是存在 x≥0，使得 Ax=b，这就是第一种情况。

如果在锥外呢？怎么表示在锥外？当然我们可以直接写出锥内的否命题，但是那实用价值不大。如果向量 b 在锥外，那么我们总是可以找到一个“标杆”向量 y，它与 a1,a2,…,an 的夹角都大于等于 90 度，向量表示法就是内积都小于等于零，即

，或者写成一个整体

。

找到这个“标杆”后，向量 b 与“标杆”的夹角必然是要小于 90 度的，即

。这样一个大于等于 90 度，一个小于 90 度，保证了向量 b 在全体向量构成的锥外。这就是第二种情况。

当然，这不能算是完备的证明，只能算是一个启发式引导，完备的证明还要仔细论证为什么这些向量的非负线性组合构成了一个锥。这些就不在本文的范畴了。Farkas 引理的特点是二选一，比如我要证明满足第二点，只需要证明它不满足第一点，反之亦然。这是对问题的一个转化。

从引理到强对偶

有了 Farkas 引理，我们就可以证明强对偶形式了。证明的思路是：证明 max 可以任意程度地接近 min 。

证明还是先假设 min 的最小值在

处取到，即最小值为

，那么我们考虑：

当 ϵ>0 时，那么对于任意 x≥0，

都不可能等于

，这是因为

已经是最小值，所以

是

能达到的最大值，它不可能等于更大的

。

前面已经说了，不满足第一种情况，那就只能满足第二种情况了，即存在

使得

且

，这等价于：

下面我们表明 α 必须大于 0，这是因为

，所以我们再去考虑 ϵ=0。而当 ϵ=0 时有

，即满足 Farkas 引理的第一种情况，那就不满足第二种情况，而不满足第二种情况，意味着

，都有

，刚刚我们已经证明了

，所以必须有 α>0。

现在确定 α>0 了，我们就可以从式 (18) 得到：

这意味着：

而弱对偶形式已经告诉我们：

也就是

被夹在

和

之间，而因为 ϵ > 0 是任意的，所以两者可以无限接近，从而：

这便是要证的强对偶形式。

简单说明

Farkas 引理和强对偶形式的证明，看上去比较迂回，但实际上是优化理论中非常经典和重要的证明案例，对于初学者来说，它应该是一次非常强烈的思维冲击。因为我们以往的认识中，我们对原命题做变换，仅仅是局限于“逻辑变换”，如否命题、逆否命题等。而对偶形式和 Farkas 引理却出现了一些“看起来很不一样，却又偏偏等价”的结论。

Farkas 引理和强对偶形式也可以进一步推广到一般的凸集优化问题，证明手段相似，只不过在对区域和不等关系的讨论上，比上面的线性规划的过程更为细致和复杂。不过我也不是专门搞这些优化问题的，所以只有一个模糊的认识，就不再继续班门弄斧了。