DropEdge

4 minute read

Published:

论文阅读笔记:DropEdge: Towards Deep Graph Convolutional Networks on Node Classification

DropEdge旨在解决GCN的过平滑化的缺点。

论文首先阐述了GCN过平滑化的缺点,并且给出理论证明,然后证明了DropEdge的手段,也即每两层GCN之间随机Drop掉一些边可以减缓GCN的过平滑化的缺点。

关于GCN,可以参见: 图卷积网络GCN

GCN的过平滑化

首先我们证明一下,GCN过平滑化(OverSmoothing)的缺陷。

定理1.1 GCN的卷积公式

首先,回归GCN的卷积公式

首先回顾GCN的定义,单层GCN的计算公式,

\[f(X) = \sigma(PXW)\]

其中,$P$表示和邻接矩阵相关的线性变换,$W$表示一个可学习的线性变换,$\sigma$为激活函数,

对比GCN的公式,

\[f(X) = Relu(\tilde A X \Theta) \\\]

也即$\Theta =W$, $\tilde A = P$, $\sigma(x)=Relu(x) = max(x,0)$,

DopEdge论文中定义了$P$ 为$L = I - D^{-\frac{1}{2} } A D^{-\frac{1}{2}}$ 的多项式函数,可以注意到,没有经过自环trick之前的GCN公式,可以表示为,

\[\tilde A X W = (2I-L) X W = g(L) XW \\ \tilde A :=I + D^{-\frac{1}{2} } A D^{-\frac{1}{2}} = 2I-L\]

也即原GCN的公式也满足该定义,下面使用该公式作为GCN的公式分析。

定理1.2 空间距离的定义

要定义什么是过平滑化,本质是某个距离度量趋近于0,此时也即收敛到了某个空间上,即过平滑化。

因此,首先应该定义一个空间距离度量。

首先注意到,$U$为$L$的零空间,同时也是其最小特征值对应的特征子空间,因为

\[Le = (I - D^{-\frac{1}{2} } A D^{-\frac{1}{2}})e = 0\]

其中$e=[1,1,…,1]^T$

此时满足$U$为线性变换$P$的不变子空间

\[\forall x \in U, Lx=0\]

可以直接验证下式成立,

\[Lx = 0 \Rightarrow L P x =0\]

同时,由于$L$为对称阵,$P$也为对称阵,则$U$的正交补空间$U^C$ 也为$P$的不变子空间,

\[\forall u \in U, v \in U^C \\ <Pv,u> = <v,P^Tu> = <v,Pu> = 0\]

因为$Pu \in U$ ,

定义子空间$X$相对子空间$M$之间的距离

\[d_M(X) := inf\{\Vert X-Y \Vert_F : Y \in M\} \\ M = :U \otimes R^C = \{ \sum_m^M e_m \otimes w_m : w_m \in R^C \}\]

其中$R^C$表示$C$维实数集,其中假设$U$属于$M$维子空间$R^M$,而${e_m}$ 为$R^N$ 空间中的标准正交基, 而其中的前$M$个为$U$ 的标准正交基,

定理1.4 过平滑化的理论证明

下面需要证明,GCN可以使得$d_M(X)$逐层递减,

证明分为两步,第一步为消息传递和聚合的过程使得距离递减,

\[d_M(PXW) \le d_M(X)\]

第二步为证明激活函数使得距离也递减,

\[d_M(\sigma(X)) \le d_M(X)\]

综合两式就可以得到,每一层GCN使得$d_M(X)$递减,

\[d_M(f(X)) \le d_M(X)\]

由于$X \in R^N \times R^C$, $X$可以表示为

\[X = \sum_m^N e_m \otimes w_m, \exists w_m\]

定理1.4.1 消息传递的过平滑化

由Krocker积的性质等可以推出,该结论也可以直观理解,

\[d_M(X) = \sum_{m=M+1}^{N} \Vert w_m\Vert_2\]

推导如下,首先有,

\[d_M(X) = \Vert \sum_{m=M+1}^N e_m \otimes w_m\Vert_F\]

对该式进行化简,

\[\begin{align} d_M(X) &= \sum_{m=M+1}^N (e_m \otimes w_m)^T (e_m\otimes w_m) \\ &= \sum_{m=M+1}^N (e_m^T e_m) \otimes(w_m^T w_m) \\ &= \sum_{m=M+1}^N (w_m\otimes w_m) \\ &= \sum_{m=M+1}^{N} \Vert w_m \Vert_2 \end{align}\]

同理,

\[\begin{align} d_M(PXW) &= \sum_{m=M+1}^N (Pe_m) \otimes (W^T w_m) \\ &= \sum_{m=M+1}^N (\lambda_m e_m) \otimes (W^T w_m) \\ &=\sum_{m=M+1}^N e_m \otimes ( \lambda_mW^T w_m) \\ &= \sum_{m=M+1}^N \Vert \lambda_m W^Tw_m \Vert_2 \\ &\le \lambda s \sum_{m=M+1}^N \Vert w_m \Vert_2 \\ &\le d_M(X) \end{align}\]

其中,定义$(\lambda_m,e_m)$ 为 $P$的一个特征对,而$\lambda,s$ 分别为$P$的最大特征值和$W$的最大奇异值,

在$\lambda s \le 1$的假设下,得到最后一个不等式,从而证明了消息传递的过程使得距离递减的性质。

定理1.4.2 激活函数的过平滑化

下面需要证明激活函数也使得$d_M(X)$递减,

个人觉得这个结论是直观的,因为$Relu$激活函数只保留了正部,所以$d_M(X)$不可能会增大,当然文中的证明非常严谨,此处从略,大致证明思路也是从$Relu$函数入手,具体证明的过程中用到了$e_m$正交性质以及$\Vert.\Vert_F$ 的排列不变性质,此处从略。

有了以上的结论,可以定义$\epsilon-soomth$的定义,其实就是说,GCN堆叠到了一定的层数之后,$d_M(f^{(l)}(X)) \to 0$

用分析的语言表达为,

\[\exists l^{\star}, \forall l \ge l^{\star},d_M(f^{(l)}(X)) \le \epsilon\]

若要求

\[d_M(f^{(l)}(X)) \le (s\lambda)^l d_M(X) \le \epsilon\]

则只需要,

\[l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda}\]

也即当GCN的层数达到一定数目后,就会陷入过平滑化的危险之中。

搞了这么久,好像还没有进入DropEdge,DropEdge为什么有效呢,原因是DropEdge可以减缓过平滑化的趋势,那么又是如何减缓的呢,可以证明使用DropEdge的技术,可以提高上面推出的$l$的下界,也就是说GCN需要更多的层数才会达到同样的平滑化效果。

但在证明DropEdge的神奇作用之前,还得先证明一些也很神奇的公式,

好像又有点说来话长了,首先要从图上的随机游走说起…..

首先我们需要引入一些些概念….

从随机游走到DropEdge

定理2.1 图上的随机游走

图上的随机游走定义为每个结点随机地选择一个邻居转移,也即转移矩阵由如下公式表示

\[M = D^{-1} A\]

且有

\[M e = e ,e_i=1,\\ M^T \pi = \pi, \pi_i = \frac{d_i}{2m}\]

上述得到的两个向量即为转移矩阵$M$的左右特征向量,直接代入验算可得。

但$M$不是实对称矩阵,使用起来不方便,使用

\[N := D^{-\frac{1}{2}} A D^{-\frac{1}{2}} = D^{\frac{1}{2}} M D^{-\frac{1}{2}}\]

则$N$存在正交谱分解,

\[N = \sum_i \lambda_i v_i v_i^T \\ v_1 = (\frac{D}{2m})^{\frac{1}{2}} e\]

代入得,

\[M = D^{-\frac{1}{2}} N D^{\frac{1}{2}} = Q + \sum_{i=2}^n D^{-\frac{1}{2}} \lambda_i v_i v_i^TD^{\frac{1}{2}} \\ M^t = D^{-\frac{1}{2}} N^t D^{\frac{1}{2}} = Q + \sum_{i=2}^n D^{-\frac{1}{2}} \lambda_i^t v_i v_i^TD^{\frac{1}{2}}\]

其中$Q$为$\pi$组成的矩阵,由于$\forall i >1, \lambda_i<1$ ,右式的第二项收敛至0,

\[M \to Q, t\to \infty\]

定理2.2 结点的平均距离

下面定义结点之间的平均距离,$H(i,j)$定义为结点$i$走到结点$j$的期望时间,由于结点$i$到结点$j$的期望时间等于其邻居结点到$j$的平均时间加1,用矩阵表示为,其中$J$为全1矩阵,当$i \neq j $ 时有下式成立,

\[H = J + M H\]

所以已知

\[F = J + MH-H\]

为对角阵,下面求其对角元素,利用下式,

\[F^T \pi = J^T \pi + H^T(M^T-I) \pi = J \pi = e\]

则计算得到,

\[F_{ii} = \frac{2m}{d_i}\\ F = 2m D^{-1} \\ (M-I)H = 2m D^{-1} -J\]

但由于根据Perron定理,$M$的最大特征值为1,因此$M-I$不可逆,无法通过直接求逆的方式求得$H$,但注意到,

\[(M-I) e = 0\]

因此,如果$H$为该方程的解,则$\forall a, H + e a^T$ 也为该方程的解, 因此可以通过选取合适的$a$,使得该方程可解,

取$a=\pi$, 则代入后可以求出$H$,此时$e a^T = Q$,

这里采用另一种方式的证明,

\[\begin{align} N &= Q^T \Lambda Q \\ L &= D- A\\ L^+ &= D^{-\frac{1}{2}} Q(I-\Lambda)^{+} D^{-\frac{1}{2}} \end{align}\]

根据上式,

\(\begin{align} (I-M) H &= J - 2m D^{-1} \\ LH &= DJ-2mI \\ \end{align}\) 又由,

\[L^+ L = I - \frac{1}{n} e e^T,e=[1,1,...1,]^T\]

两边同乘$L^+$并移项,

\[H = L^+ J - 2m L^+ +e u^T, \exists u\]

展开每个元素得,

\[H_{ij} = \sum_k L^+_{ik} d_k - 2m L^+_{ij} + u_j\]

我们知道$H_{ii}=0$,因此代入可以求出$u_j$,

\[u_j = \sum_k L^+_{jk}d_k + 2mL^+_{jj}\]

定理2.3 结点的通讯距离

结点的通讯距离根据定理2.2,结点的平均距离定义:

\[\kappa(i,j) = H(i,j) +H(j,i) = 2m(L^+_{ii}+L^+_{jj}- 2L^+_{ij})\]

再代入之间得到的,

\[L^+ = D^{-\frac{1}{2}} Q(I-\Lambda)^{+} D^{-\frac{1}{2}}\]

可以得到最终的公式,其中$v$表示$Q$的列向量,

\[\kappa(i,j)= 2m\sum_{k=2} \frac{1}{1-\lambda_k} (\frac{v_{ik}}{\sqrt{d_i}} - \frac{v_{jk}}{\sqrt{d_j}})^2\]

定理2.4 通讯距离与特征值的关系

由$\lambda = \lambda_2 \ge \lambda_k , \forall k\ge2$, 以及$Q$为正交矩阵,$v_{ik}^2 +v_{jk}^2 \le 1$,

以及显然上式的最大值不超过$v_{ik}^2 +v_{jk}^2 = 1$ 的情况,

但在$v_{ik}^2 +v_{jk}^2 = 1$ 的情况下可以通过不等式放缩证明,

\[(\frac{v_{ik}}{\sqrt{d_i}} - \frac{v_{jk}}{\sqrt{d_j}})^2 \le \frac{1}{d_i} + \frac{1}{d_j}\]

\[m (\frac{1}{d_i} + \frac{1}{d_j}) \le \kappa(i,j) \le \frac{2m}{1-\lambda} (\frac{1}{d_i} + \frac{1}{d_j})\]

定理2.5 随机游走与电路的联系

下面的证明,建立起了图上的随机游走和电路之间的关系,个人觉得非常美妙,先看如下公式,

\[\phi(v) = \frac{1}{d_v} \sum_{u \in \Gamma(v)} \phi(u)\]

其中,$\Gamma(v)$ 表示$v$的出度邻居集合,

考虑图上的两个结点$s,t$ 。

如果$\phi(u)$ 定义为一个从$u$出发的随机游走,在到达$t$之间经过了结点$s$的概率,显然这样定义的$\phi$ 满足上式,由于要经过一个结点必先到达其某个入度邻居。

如果将图视作一个电路,图中的每一条边视作一个单位电阻,考虑一个从结点$s$流向$t$的电流,定义$\phi(u)$ 为结点$u$上的电压,显然由伏安定律,$\phi$也满足上式。

所以上述两个定义本质上是等价的,同时,注意到在上述两个定义中均满足$\phi(s)=1, \phi(t)=0$,

定理2.6 结点的通讯距离与图的电阻

在定理2.5的基础上,由伏安定律,$s$与$t$之间大的电阻表示为,

\[R_{st} = \frac{1}{ \sum_{u \in \Gamma(t)} \phi(u)} = \frac{1}{\phi(t) d_t}\]

此时$\phi(t)$的含义是,从$t$出发的随机游走,在返回$t$之前经过了$s$的概率。

在证明最终结论之前,需要再看一下图上随机游走的性质,代入易验证上述平稳分布实际上为细致平稳分布,

\[p_{ij} \pi_i = p_{ji} \pi_j = \frac{1}{2m}\]

该式子实际上说明了,到达平稳分布后,停留在每一条边都是等概率的。

那么,如果我们从一条边出发,回到该边的期望步数为$2m$,

同理,停留在每一个结点的概率等于$\pi_i$, 从该节点出发,重新回到该节点的期望步数为$\frac{1}{\pi_i} = \frac{2m}{d_i}$,

\[\begin{align} &E(\sigma) :=E(t \to s\to t) = H(t,s) +H(s,t) = \kappa(s,t)\\ &E(\tau):=E(t \to t) = \frac{2m}{d_t} \end{align}\]

其中,$E(s \to t)$ 定义为从$s$出发到达$t$的期望步数,又有

\[E(\sigma) - E(\tau) = (1-q) E(\sigma)\]

因为$P(\sigma=\tau)=q$, 而若以$1-q$的概率该事件没有发生,那么需要走的期望步数为,

\[(1-q) E(\sigma)\]

又因为该事件没有发生正好意味着$\tau < \sigma$, 那么此时已经走了$E(\tau)$步,只需要再走$E(\sigma) - E(\tau) $ 步就可以使得事件$\sigma$发生,也即期望步数为

\[E(\sigma) - E(\tau)\]

\[q = \phi(t) = \frac{E(\tau)}{E(\sigma)} = \frac{1}{\pi_t \ \kappa(s,t)}\]

则有,

\[R_{st} = 2m \kappa(s,t)\]

DropEdge的威力

从上面的一系列精巧的理论出发,我们与DropEdge建立联系,可以看见DropEdge的强大威力。

总结一下上面推出的几个公式,

\[\lambda \ge 1 - \frac{1}{\kappa(i,j)} (\frac{1}{d_i} + \frac{1}{d_j}) \\ \kappa(i,j) = \frac{1}{2m R_{ij}} \\ l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda}\]

那么DropEdge的效果是什么呢?

我们从电路的角度看整张图,将边看作单位电阻,DropEdge等价于删去一个电阻(将其断路),电路中的总电阻值应该增大,

由,

\[\lambda \ge 1 - \frac{2m}{\kappa(i,j)} (\frac{1}{d_i} + \frac{1}{d_j}) =1 - \frac{1}{R_{ij}} (\frac{1}{d_i} + \frac{1}{d_j}) \\\]

我们知道这相当于增加了$\lambda$的下界,

而且,在极限情况下,不断执行DropEdge操作将会得到完全的断路,也即,

\[\exists s,t, R_{st} = \infty\]

此时有$\lambda \ge 1$ 但我们又已知$\lambda \le 1$ ,故极限情况下一定会达到$\lambda=1$ , 故在未达到$\lambda=1$ 之间$\lambda$ 的确会增加而不可能一直保持不变状态。

其实该结论等价于,增加了1特征值的重数。

那么,又由于,

\[l \ge \frac{\log\frac{\epsilon}{d_M(X)}}{\log s\lambda} \\ when \ \log\frac{\epsilon}{d_M(X)} <0\]

$l$与$\lambda$成正相关关系,故$l$的值也会增加,

也即使用DropEdge的确可以减缓$\epsilon -smooth$的速度,

同时,从另一个角度,当图达到不连通状态时,空间$M$的维数至少增加1,那么$dim(M)$也增大了,相当于可以在更高维的空间中进行特征处理。从信息论的角度上,允许我们在更高维的空间中考虑问题,可能可以获得更多的信息,从而有助于GNN的学习。