Categories
程式開發

我们真的需要深度图神经网络吗?


深度学习的一大特点就是使用的神经网络具有几十层甚至数百层。与之形成鲜明对比的是,大多数用于图深度学习的架构都很“浅”,只有少量的层。在本文中,作者提出了一个看上去有些离经叛道的问题:图神经网络架构的深度能否带来任何优势?

本文最初发表于 TowardsDataScience 博客,经原作者 Michael Bronstein 授权,InfoQ 中文站翻译并分享。

image

今年,图深度学习成为机器学习领域 炙手可热的话题之一。然而,那些习惯于想象卷积神经网络具有数十层甚至数百层的人,如果看到大多数关于图深度学习的工作最多只用了几层的话,他们会不会感到深深的失望呢?“深度图神经网络”一词是否被误用了?我们是否应该套用经典的说法,思考深度是否应该被认为对图的学习 是有害的

训练深度图神经网络是一个难点。除了在深度神经结构中观察到的标准问题(如反向传播中的梯度消失和由于大量参数导致的过拟合)之外,还有一些图特有的问题。其中之一是过度平滑,即应用多个图卷积层后,节点特征趋向于同一向量,变得几乎无法区分的现象【1】。这种现象最早是在 GCN 模型【2】【3】中观察到的,其作用类似于低通滤波器【4】。

最近,人们致力于解决图神经网络中的深度问题,以期获得更好的性能,或许还能避免在提到只有两层的图神经网络时使用“深度学习”这一术语的尴尬。典型的方法可以分为两大类。首先,使用正则化技术,例如边 dropout(DropEdge)【5】、节点特征之间的成对距离归一化(PairNorm)【6】,或节点均值和方差归一化(NodeNorm)【7】。其次,架构变化,包括各种类型的残差连接(residual connection),如跳跃知识【8】或仿射残差连接【9】。虽然这些技术允许训练具有几十层的深度图神经网络(否则很难,甚至不可能),但它们未能显示出显著的收益。更糟糕的是,使用深度架构常常会导致性能下降。下表摘自【7】,显示了一个典型的实验评估,比较了不同深度的图神经网络在节点分类任务上的表现:

原文链接:【https://www.infoq.cn/article/4wZrGLeyyUghWLaF6DVi】。未经作者许可,禁止转载。