Abstract 摘要

Deep learning has revolutionized many machinelearning tasks in recent years, ranging from image classificationand video processing to speech recognition and natural languageunderstanding. The data in these tasks are typically representedin the Euclidean space. However, there is an increasing numberof applications, where data are generated from non-Euclideandomains and are represented as graphs with complex relation-ships and interdependency between objects. The complexity ofgraph data has imposed significant challenges on the existingmachine learning algorithms. Recently, many studies on extend-ing deep learning approaches for graph data have emerged.In this article, we provide a comprehensive overview of graphneural networks (GNNs) in data mining and machine learningfields. We propose a new taxonomy to divide the state-of-the-artGNNs into four categories, namely, recurrent GNNs, convolu-tional GNNs, graph autoencoders, and spatial–temporal GNNs. We further discuss the applications of GNNs across variousdomains and summarize the open-source codes, benchmark datasets, and model evaluation of GNNs. Finally, we propose potentialresearch directions in this rapidly growing field.


近年来,深度学习彻底改变了许多机器学习任务,从图像分类和视频处理到语音识别和自然语言理解。这些任务中的数据通常表示在欧几里德空间中。然而,有越来越多的应用程序,其中数据是从非欧几里德域生成的,并表示为对象之间具有复杂关系和相互依赖关系的图。图形数据的复杂性给现有的机器学习算法带来了巨大的挑战。近年来,出现了许多关于扩展图形数据深度学习方法的研究。在本文中,我们全面概述了数据挖掘和机器学习领域中的图形神经网络(GNNs)。我们提出了一种新的分类法,将现有的GNNs分为四类,即循环GNNs、卷积GNN、图形自动编码器和时空GNNs。我们进一步讨论了GNNs在各个领域的应用,并总结了GNNs的开源代码、基准数据集和模型评估。最后,我们提出了这一快速发展领域的潜在研究方向。

Notes 学习笔记

本文主要贡献:

  • 新的GNNs分类法。分为四类:recurrentGNNs (RecGNNs), convolutional GNNs (ConvGNNs),graph autoencoders (GAEs), and spatial–temporal GNNs(STGNNs);
  • 综合评述:对各项GNN技术进行全面的概述;
  • 丰富的资源:模型、数据集、代码、应用;
  • 未来方向。

RecGNNs

旨在学习具有递归神经结构的节点表示。假设图中的节点不断地与其邻居交换信息,直到达到稳定的平衡。

代表模型:

  • GNN$^*$
  • GraphESN
  • SSE

ConvGNNs

将卷积运算从网格数据推广到图数据,其核心思想是通过聚合节点自身的特征和邻居的特征来生成节点的表示。通过堆叠多个卷积层以提取高级节点表示。

可以分为两大类:基于谱的、基于空间的。基于谱的模型在图形信号处理上具有理论基础,可以通过设计新的图形滤波器来构建新的图卷积网络。基于空间的模型在效率、通用性、灵活性上占优。

下面将各自的代表性模型进行罗列,若今后阅读了相关论文,会添加对应的博客链接。

基于谱的:

  • Spectral CNN
  • ChebNet
  • CayleyNet
  • GCN
  • AGCN
  • DGCN

基于空间的:

  • NN4G
  • CGMM
  • DCN
  • DGC
  • PGC-DGCNN
  • PGC
  • MPNN
  • GIN
  • GrapphSage
  • GAT
  • MoNet
  • PATCHY-SAN
  • LGCN
  • Fast-GCN
  • Huang et al.
  • StoGCN

两种降采样策略:

  • Pooling:旨在通过对节点进行降采样来生成较小的表示,从而避免过度拟合、置换不变性和计算复杂性问题,从而减小参数的大小。
  • Readout:主要用于基于节点表示生成图级表示。他们的机制非常相似。

GAEs

GAE是一种深层的神经结构,它将节点映射到潜在的特征空间,并从潜在的表示中解码图形信息。GAE可用于学习网络嵌入或生成新的图形。

网络嵌入:网络嵌入是节点的低维向量表示,它保留了节点的拓扑信息。GAEs学习网络嵌入,使用编码器提取网络嵌入,并使用解码器强制网络嵌入以保留图形拓扑信息,如PPMI矩阵和邻接矩阵。

图生成:对于多个图,GAE能够通过将图编码为隐藏表示和解码给定隐藏表示的图结构来学习图的一般分布。生成方式有两种:全局方式和序列方式。全局方式一次生成一张图,但是无法扩展到大型Graph上。序列方式将图线性化为序列。由于周期的存在,它们可能会丢失结构信息。

STGNNs

核心思想是同时考虑空间依赖和时间依赖,方法是对动态节点输入进行建模,同时假设连接节点之间的依赖性。任务目标是预测未来节点值或标签、预测时空图标签。主要分为两类:CNN-based和RNN-based。基于RNN的方法存在耗时的迭代传播和梯度爆炸/消失问题,基于CNN的方法能非递归处理、可并行计算、能稳定梯度、低内存需求。

从任务级别来看

  • Node-level
  • Edge-level
  • Graph-level

从训练框架来看

  • 节点分类的半监督学习
  • 图分类的监督学习
  • 图嵌入的无监督学习

数据集

image-20220627143758361

评估方法

  • 对于节点分类任务:大多数都遵循对基准数据集进行train/valid/test的标准划分,报告多次运行的平均test accF1 score
  • 对图分类任务:通常采用十倍交叉验证

应用

  • 计算机视觉
  • 自然语言处理
  • 交通
  • 推荐系统
  • 化学
  • 其他

未来方向

  • 模型深度:目前的成功离不开较深的网络结构,但是如果太过深入,相邻节点会越来越接近彼此,理论上无限层的卷积可以使所有节点收敛于同一点。
  • 可扩展性权衡:可拓展性是以牺牲图的完整性为代价的,如何平衡。
  • 异质性:如何处理不同类型的节点和边。
  • 动态性:图是动态的,节点和边可能动态地消失或出现。

Conclusion 结论

In this article, we conduct a comprehensive overview ofGNNs. We provide a taxonomy that groups GNNs intofour categories: RecGNNs, ConvGNNs, GAEs, and STGNNs.We provide a thorough review, comparisons, and summariza-tions of the methods within or between categories. Then,we introduce a wide range of applications of GNNs. Data sets,open-source codes, and model assessment for GNNs are sum-marized. Finally, we suggest four future directions for GNNs.


在本文中,我们对GNNs进行了全面概述。我们提供了一种分类法,将GNNs分为四类:RecGNNs、ConvGNNs、GAEs和STGNNs。我们对类别内或类别间的方法进行了全面的审查、比较和总结。然后,我们介绍了GNNs的广泛应用。对GNNs的数据集、开放源代码和模型评估进行了汇总。最后,我们提出了GNNs未来的四个方向。

如果笔记中有错误,敬请指出;如果您有不同的理解,欢迎讨论。