最大均值差异

Huahuatii大约 3 分钟深度学习Discrepancy

定义

最大均值差异(Maximum Mean Discrepancy,MMD) 是一种用于衡量两个概率分布之间距离的度量方式。它是由Gretton等人在2007年提出的,主要用于核方法和核统计学中。 MMD的基本思想是将两个概率分布映射到一个高维特征空间中,然后比较它们在该空间中的均值差异,如果两个随机变量的任意阶都相同的话,那么两个分布就是一致的;而当两个分布不相同的话,那么使得两个分布之间差距最大的那个矩应该被用来作为度量两个分布的标准。

如何描述一个随机变量

去描述一个随机变量,最直接的方法就是给出它的概率分布函数 f(x)f(x)。一些简单的分布可以这么干,比如正太分布给出均值和方差就可以确定,但是对于一些复杂的、高维的随机变量,我们无法给出它们的分布函数。

这时候我们可以用随机变量的来描述一个随机变量,比如一阶中心矩是均值,二阶中心矩是方差等等。如果两个分布的均值和方差都相同的话,它们应该很相似,比如同样均值和方差的高斯分布和拉普拉斯分布。但是很明显,均值和方差并不能完全代表一个分布,这时候我们就需要更高阶的矩来描述一个分布。

举个例子,就好比描述人一样,如果两个人身高、轮廓都一样,我们会说这两个人很像。但是如果要说这两个人是一个人的话,我们如要更多的信息,比如血型、DNA等更加复杂的信息。

均值差异(Mean Discrepancy,MD)

判断两个分布ppqq之间的差异,根据分布ppqq对应的样本空间PPQQ,如果根据映射函数ff,有:

均值相同

mean(f(P))=mean(f(Q))mean(f(P))=mean(f(Q))

则认为ppqq在映射函数ff上是同一分布,如果不相同,则均值差异为:

均值差异

MD=mean(f(P))mean(f(Q))MD=|mean(f(P))-mean(f(Q))|

最大均值差异(Maximum Mean Discrepancy,MMD)

假设有两条玻璃生产线,需要撤掉一条换新的,各自生产100块玻璃,记为P={p1,p2,...,p100}P=\{p_1,p_2,...,p_{100}\}Q={q1,q2,...,q100}Q=\{q_1,q_2,...,q_{100}\},然后用f1f_1方法测量玻璃厚度,发现MD(f1,P,Q)MD(f_1,P,Q)为0,则说明两个样本在f1f_1上均值差异MD相同,但是评价一块玻璃质量的方法并不只有f1f_1,还有测定{透光率,平整度,密度,...}的方法函数集F={f1,f2,f3,f4,...}F=\{f_1,f_2,f_3,f_4,...\}

在函数集FF中,最大的MD值即为MMD。当MMD为0时,则分布相同,反之不相同。

MMD公式

MMD[F,p,q]:=supfF(Exp[f(x)]Eyq[f(y)]) \operatorname{MMD}[\mathcal{F}, p, q]:=\sup _{f \in \mathcal{F}}\left(\mathbf{E}_{x \sim p}[f(x)]-\mathbf{E}_{y \sim q}[f(y)]\right) \\

当样本有限时,公式转化为:

MMD[F,X,Y]:=supfF(1mi=1mf(xi)1ni=1nf(yi)) \operatorname{MMD}[\mathcal{F}, X, Y]:=\sup _{f \in \mathcal{F}}\left(\frac{1}{m} \sum_{i=1}^{m} f\left(x_{i}\right)-\frac{1}{n} \sum_{i=1}^{n} f\left(y_{i}\right)\right) \\

或者简写为:

MMD[F,p,q]:=supfF<μpμq,f> \operatorname{MMD}[\mathcal{F}, p, q]:=\sup _{f \in F}<\mu_{p}-\mu_{q}, f> \\

参考资料

假设检验——独立双样本检验之 AB测试案例open in new window
MMD最大均值差异open in new window