DropEdge

4 minute read

Published: August 12, 2021

论文阅读笔记：DropEdge: Towards Deep Graph Convolutional Networks on Node Classification

DropEdge旨在解决GCN的过平滑化的缺点。

论文首先阐述了GCN过平滑化的缺点，并且给出理论证明，然后证明了DropEdge的手段，也即每两层GCN之间随机Drop掉一些边可以减缓GCN的过平滑化的缺点。

关于GCN，可以参见: 图卷积网络GCN

GCN的过平滑化

首先我们证明一下，GCN过平滑化（OverSmoothing）的缺陷。

定理1.1 GCN的卷积公式

首先，回归GCN的卷积公式

首先回顾GCN的定义，单层GCN的计算公式，

\[f(X) = \sigma(PXW)\]

其中，$P$表示和邻接矩阵相关的线性变换，$W$表示一个可学习的线性变换，$\sigma$为激活函数，

对比GCN的公式，

\[f(X) = Relu(\tilde A X \Theta) \\\]

也即$\Theta =W$, $\tilde A = P$, $\sigma(x)=Relu(x) = max(x,0)$,

DopEdge论文中定义了$P$ 为$L = I - D^{-\frac{1}{2} } A D^{-\frac{1}{2}}$ 的多项式函数，可以注意到，没有经过自环trick之前的GCN公式，可以表示为，

\[\tilde A X W = (2I-L) X W = g(L) XW \\ \tilde A :=I + D^{-\frac{1}{2} } A D^{-\frac{1}{2}} = 2I-L\]

也即原GCN的公式也满足该定义，下面使用该公式作为GCN的公式分析。

定理1.2 空间距离的定义

要定义什么是过平滑化，本质是某个距离度量趋近于0，此时也即收敛到了某个空间上，即过平滑化。

因此，首先应该定义一个空间距离度量。

首先注意到，$U$为$L$的零空间，同时也是其最小特征值对应的特征子空间,因为

\[Le = (I - D^{-\frac{1}{2} } A D^{-\frac{1}{2}})e = 0\]

其中$e=[1,1,…,1]^T$

此时满足$U$为线性变换$P$的不变子空间

\[\forall x \in U, Lx=0\]

可以直接验证下式成立，

\[Lx = 0 \Rightarrow L P x =0\]

同时，由于$L$为对称阵，$P$也为对称阵，则$U$的正交补空间$U^C$ 也为$P$的不变子空间，

\[\forall u \in U, v \in U^C \\ <Pv,u> = <v,P^Tu> = <v,Pu> = 0\]

因为$Pu \in U$ ,

定义子空间$X$相对子空间$M$之间的距离

\[d_M(X) := inf\{\Vert X-Y \Vert_F : Y \in M\} \\ M = :U \otimes R^C = \{ \sum_m^M e_m \otimes w_m : w_m \in R^C \}\]

其中$R^C$表示$C$维实数集，其中假设$U$属于$M$维子空间$R^M$，而${e_m}$ 为$R^N$ 空间中的标准正交基，而其中的前$M$个为$U$ 的标准正交基，

定理1.4 过平滑化的理论证明

下面需要证明，GCN可以使得$d_M(X)$逐层递减，

证明分为两步，第一步为消息传递和聚合的过程使得距离递减，

\[d_M(PXW) \le d_M(X)\]

第二步为证明激活函数使得距离也递减，

\[d_M(\sigma(X)) \le d_M(X)\]

综合两式就可以得到，每一层GCN使得$d_M(X)$递减，

\[d_M(f(X)) \le d_M(X)\]

由于$X \in R^N \times R^C$, $X$可以表示为

\[X = \sum_m^N e_m \otimes w_m, \exists w_m\]

定理1.4.1 消息传递的过平滑化

由Krocker积的性质等可以推出，该结论也可以直观理解，

\[d_M(X) = \sum_{m=M+1}^{N} \Vert w_m\Vert_2\]

推导如下，首先有,

\[d_M(X) = \Vert \sum_{m=M+1}^N e_m \otimes w_m\Vert_F\]

对该式进行化简，

\[\begin{align} d_M(X) &= \sum_{m=M+1}^N (e_m \otimes w_m)^T (e_m\otimes w_m) \\ &= \sum_{m=M+1}^N (e_m^T e_m) \otimes(w_m^T w_m) \\ &= \sum_{m=M+1}^N (w_m\otimes w_m) \\ &= \sum_{m=M+1}^{N} \Vert w_m \Vert_2 \end{align}\]

同理，

\[\begin{align} d_M(PXW) &= \sum_{m=M+1}^N (Pe_m) \otimes (W^T w_m) \\ &= \sum_{m=M+1}^N (\lambda_m e_m) \otimes (W^T w_m) \\ &=\sum_{m=M+1}^N e_m \otimes ( \lambda_mW^T w_m) \\ &= \sum_{m=M+1}^N \Vert \lambda_m W^Tw_m \Vert_2 \\ &\le \lambda s \sum_{m=M+1}^N \Vert w_m \Vert_2 \\ &\le d_M(X) \end{align}\]

其中，定义$(\lambda_m,e_m)$ 为 $P$的一个特征对，而$\lambda,s$ 分别为$P$的最大特征值和$W$的最大奇异值，

在$\lambda s \le 1$的假设下，得到最后一个不等式，从而证明了消息传递的过程使得距离递减的性质。

定理1.4.2 激活函数的过平滑化

下面需要证明激活函数也使得$d_M(X)$递减，

个人觉得这个结论是直观的，因为$Relu$激活函数只保留了正部，所以$d_M(X)$不可能会增大，当然文中的证明非常严谨，此处从略，大致证明思路也是从$Relu$函数入手，具体证明的过程中用到了$e_m$正交性质以及$\Vert.\Vert_F$ 的排列不变性质，此处从略。

有了以上的结论，可以定义$\epsilon-soomth$的定义，其实就是说，GCN堆叠到了一定的层数之后，$d_M(f^{(l)}(X)) \to 0$

用分析的语言表达为，

\[\exists l^{\star}, \forall l \ge l^{\star},d_M(f^{(l)}(X)) \le \epsilon\]

若要求

\[d_M(f^{(l)}(X)) \le (s\lambda)^l d_M(X) \le \epsilon\]

则只需要，

\[l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda}\]

也即当GCN的层数达到一定数目后，就会陷入过平滑化的危险之中。

搞了这么久，好像还没有进入DropEdge，DropEdge为什么有效呢，原因是DropEdge可以减缓过平滑化的趋势，那么又是如何减缓的呢，可以证明使用DropEdge的技术，可以提高上面推出的$l$的下界，也就是说GCN需要更多的层数才会达到同样的平滑化效果。

但在证明DropEdge的神奇作用之前，还得先证明一些也很神奇的公式，

好像又有点说来话长了，首先要从图上的随机游走说起…..

首先我们需要引入一些些概念….

从随机游走到DropEdge

定理2.1 图上的随机游走

图上的随机游走定义为每个结点随机地选择一个邻居转移，也即转移矩阵由如下公式表示

\[M = D^{-1} A\]

且有

\[M e = e ,e_i=1,\\ M^T \pi = \pi, \pi_i = \frac{d_i}{2m}\]

上述得到的两个向量即为转移矩阵$M$的左右特征向量，直接代入验算可得。

但$M$不是实对称矩阵，使用起来不方便，使用

\[N := D^{-\frac{1}{2}} A D^{-\frac{1}{2}} = D^{\frac{1}{2}} M D^{-\frac{1}{2}}\]

则$N$存在正交谱分解，

\[N = \sum_i \lambda_i v_i v_i^T \\ v_1 = (\frac{D}{2m})^{\frac{1}{2}} e\]

代入得，

\[M = D^{-\frac{1}{2}} N D^{\frac{1}{2}} = Q + \sum_{i=2}^n D^{-\frac{1}{2}} \lambda_i v_i v_i^TD^{\frac{1}{2}} \\ M^t = D^{-\frac{1}{2}} N^t D^{\frac{1}{2}} = Q + \sum_{i=2}^n D^{-\frac{1}{2}} \lambda_i^t v_i v_i^TD^{\frac{1}{2}}\]

其中$Q$为$\pi$组成的矩阵，由于$\forall i >1, \lambda_i<1$ ，右式的第二项收敛至0，

\[M \to Q, t\to \infty\]

定理2.2 结点的平均距离

下面定义结点之间的平均距离，$H(i,j)$定义为结点$i$走到结点$j$的期望时间，由于结点$i$到结点$j$的期望时间等于其邻居结点到$j$的平均时间加1，用矩阵表示为，其中$J$为全1矩阵，当$i \neq j $ 时有下式成立，

\[H = J + M H\]

所以已知

\[F = J + MH-H\]

为对角阵，下面求其对角元素，利用下式，

\[F^T \pi = J^T \pi + H^T(M^T-I) \pi = J \pi = e\]

则计算得到，

\[F_{ii} = \frac{2m}{d_i}\\ F = 2m D^{-1} \\ (M-I)H = 2m D^{-1} -J\]

但由于根据Perron定理，$M$的最大特征值为1，因此$M-I$不可逆，无法通过直接求逆的方式求得$H$,但注意到，

\[(M-I) e = 0\]

因此，如果$H$为该方程的解，则$\forall a, H + e a^T$ 也为该方程的解, 因此可以通过选取合适的$a$，使得该方程可解，

取$a=\pi$, 则代入后可以求出$H$，此时$e a^T = Q$,

这里采用另一种方式的证明，

\[\begin{align} N &= Q^T \Lambda Q \\ L &= D- A\\ L^+ &= D^{-\frac{1}{2}} Q(I-\Lambda)^{+} D^{-\frac{1}{2}} \end{align}\]

根据上式，

$\begin{align} (I-M) H &= J - 2m D^{-1} \\ LH &= DJ-2mI \\ \end{align}$ 又由，

\[L^+ L = I - \frac{1}{n} e e^T,e=[1,1,...1,]^T\]

两边同乘$L^+$并移项，

\[H = L^+ J - 2m L^+ +e u^T, \exists u\]

展开每个元素得，

\[H_{ij} = \sum_k L^+_{ik} d_k - 2m L^+_{ij} + u_j\]

我们知道$H_{ii}=0$,因此代入可以求出$u_j$,

\[u_j = \sum_k L^+_{jk}d_k + 2mL^+_{jj}\]

定理2.3 结点的通讯距离

结点的通讯距离根据定理2.2，结点的平均距离定义：

\[\kappa(i,j) = H(i,j) +H(j,i) = 2m(L^+_{ii}+L^+_{jj}- 2L^+_{ij})\]

再代入之间得到的，

\[L^+ = D^{-\frac{1}{2}} Q(I-\Lambda)^{+} D^{-\frac{1}{2}}\]

可以得到最终的公式，其中$v$表示$Q$的列向量，

\[\kappa(i,j)= 2m\sum_{k=2} \frac{1}{1-\lambda_k} (\frac{v_{ik}}{\sqrt{d_i}} - \frac{v_{jk}}{\sqrt{d_j}})^2\]

定理2.4 通讯距离与特征值的关系

由$\lambda = \lambda_2 \ge \lambda_k , \forall k\ge2$, 以及$Q$为正交矩阵，$v_{ik}^2 +v_{jk}^2 \le 1$,

以及显然上式的最大值不超过$v_{ik}^2 +v_{jk}^2 = 1$ 的情况，

但在$v_{ik}^2 +v_{jk}^2 = 1$ 的情况下可以通过不等式放缩证明，

\[(\frac{v_{ik}}{\sqrt{d_i}} - \frac{v_{jk}}{\sqrt{d_j}})^2 \le \frac{1}{d_i} + \frac{1}{d_j}\]

故

\[m (\frac{1}{d_i} + \frac{1}{d_j}) \le \kappa(i,j) \le \frac{2m}{1-\lambda} (\frac{1}{d_i} + \frac{1}{d_j})\]

定理2.5 随机游走与电路的联系

下面的证明，建立起了图上的随机游走和电路之间的关系，个人觉得非常美妙，先看如下公式，

\[\phi(v) = \frac{1}{d_v} \sum_{u \in \Gamma(v)} \phi(u)\]

其中，$\Gamma(v)$ 表示$v$的出度邻居集合，

考虑图上的两个结点$s，t$ 。

如果$\phi(u)$ 定义为一个从$u$出发的随机游走，在到达$t$之间经过了结点$s$的概率，显然这样定义的$\phi$ 满足上式，由于要经过一个结点必先到达其某个入度邻居。

如果将图视作一个电路，图中的每一条边视作一个单位电阻，考虑一个从结点$s$流向$t$的电流，定义$\phi(u)$ 为结点$u$上的电压，显然由伏安定律，$\phi$也满足上式。

所以上述两个定义本质上是等价的，同时，注意到在上述两个定义中均满足$\phi(s)=1, \phi(t)=0$,

定理2.6 结点的通讯距离与图的电阻

在定理2.5的基础上，由伏安定律，$s$与$t$之间大的电阻表示为，

\[R_{st} = \frac{1}{ \sum_{u \in \Gamma(t)} \phi(u)} = \frac{1}{\phi(t) d_t}\]

此时$\phi(t)$的含义是，从$t$出发的随机游走，在返回$t$之前经过了$s$的概率。

在证明最终结论之前，需要再看一下图上随机游走的性质，代入易验证上述平稳分布实际上为细致平稳分布，

\[p_{ij} \pi_i = p_{ji} \pi_j = \frac{1}{2m}\]

该式子实际上说明了，到达平稳分布后，停留在每一条边都是等概率的。

那么，如果我们从一条边出发，回到该边的期望步数为$2m$,

同理，停留在每一个结点的概率等于$\pi_i$, 从该节点出发，重新回到该节点的期望步数为$\frac{1}{\pi_i} = \frac{2m}{d_i}$,

\[\begin{align} &E(\sigma) :=E(t \to s\to t) = H(t,s) +H(s,t) = \kappa(s,t)\\ &E(\tau):=E(t \to t) = \frac{2m}{d_t} \end{align}\]

其中，$E(s \to t)$ 定义为从$s$出发到达$t$的期望步数，又有

\[E(\sigma) - E(\tau) = (1-q) E(\sigma)\]

因为$P(\sigma=\tau)=q$, 而若以$1-q$的概率该事件没有发生，那么需要走的期望步数为，

\[(1-q) E(\sigma)\]

又因为该事件没有发生正好意味着$\tau < \sigma$, 那么此时已经走了$E(\tau)$步，只需要再走$E(\sigma) - E(\tau) $ 步就可以使得事件$\sigma$发生，也即期望步数为

\[E(\sigma) - E(\tau)\]

故

\[q = \phi(t) = \frac{E(\tau)}{E(\sigma)} = \frac{1}{\pi_t \ \kappa(s,t)}\]

则有，

\[R_{st} = 2m \kappa(s,t)\]

DropEdge的威力

从上面的一系列精巧的理论出发，我们与DropEdge建立联系，可以看见DropEdge的强大威力。

总结一下上面推出的几个公式，

\[\lambda \ge 1 - \frac{1}{\kappa(i,j)} (\frac{1}{d_i} + \frac{1}{d_j}) \\ \kappa(i,j) = \frac{1}{2m R_{ij}} \\ l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda}\]

那么DropEdge的效果是什么呢？

我们从电路的角度看整张图，将边看作单位电阻，DropEdge等价于删去一个电阻（将其断路），电路中的总电阻值应该增大，

由，

\[\lambda \ge 1 - \frac{2m}{\kappa(i,j)} (\frac{1}{d_i} + \frac{1}{d_j}) =1 - \frac{1}{R_{ij}} (\frac{1}{d_i} + \frac{1}{d_j}) \\\]

我们知道这相当于增加了$\lambda$的下界，

而且，在极限情况下，不断执行DropEdge操作将会得到完全的断路，也即，

\[\exists s,t, R_{st} = \infty\]

此时有$\lambda \ge 1$ 但我们又已知$\lambda \le 1$ ,故极限情况下一定会达到$\lambda=1$ , 故在未达到$\lambda=1$ 之间$\lambda$ 的确会增加而不可能一直保持不变状态。

其实该结论等价于，增加了1特征值的重数。

那么，又由于，

\[l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda} \\ when \ \log\frac{\epsilon}{d_M(X)} <0\]

$l$与$\lambda$成正相关关系，故$l$的值也会增加，

也即使用DropEdge的确可以减缓$\epsilon -smooth$的速度，

同时，从另一个角度，当图达到不连通状态时，空间$M$的维数至少增加1，那么$dim(M)$也增大了，相当于可以在更高维的空间中进行特征处理。从信息论的角度上，允许我们在更高维的空间中考虑问题，可能可以获得更多的信息，从而有助于GNN的学习。

Share on

Twitter Facebook LinkedIn

Lesi Chen (陈乐偲)

DropEdge

GCN的过平滑化

从随机游走到DropEdge

DropEdge的威力

Share on

You May Also Enjoy

图同构神经网络GIN

神经网络中的优化器

傅里叶变换的复杂度下界