图神经网络及在3D点云中的应用.docx

资源描述

图神经网络及在3D点云中的应用.docx

《图神经网络及在3D点云中的应用.docx》由会员分享，可在线阅读，更多相关《图神经网络及在3D点云中的应用.docx（9页珍藏版）》请在冰豆网上搜索。

图神经网络及在3D点云中的应用.docx

图神经网络及在3D点云中的应用

图神经网络及在3D点云检测中的应用

图神经网络（GraphNeuralNetwork）

首先指明，本文中所提到的图均指图论中的图（Graph）。

它是一种由若干个结点（Node）及连接两个结点的边（Edge）所构成的图形，用于刻画不同结点之间的关系。

下图是一个生动的例子:

我们做图像识别，对象是图片，是一个二维的结构，于是人们发明了CNN这种神奇的模型来提取图片的特征。

CNN的核心在于它的kernel在图片上平移，通过卷积的方式来提取特征。

这里的关键在于图片结构上的平移不变性：

一个小窗口无论移动到图片的哪一个位置，其内部的结构都是一模一样的，因此CNN可以实现参数共享。

而图片或者语言，都属于欧式空间的数据，因此才有维度的概念，欧式空间的数据的特点就是结构很规则。

但是现实生活中，其实有很多不规则的数据结构，典型的就是图结构，或称拓扑结构，如社交网络、化学分子结构、知识图谱等等；即使是语言，实际上其内部也是复杂的树形结构，也是一种图结构；而像图片，在做目标识别的时候，我们关注的实际上只是二维图片上的部分关键点，这些点组成的也是一个图的结构。

图的结构一般来说是十分不规则的，可以认为是无限维的一种数据，所以它没有平移不变性。

每一个节点的周围结构可能都是独一无二的，这种结构的数据，就让传统的CNN、RNN瞬间失效。

所以很多学者从上个世纪就开始研究怎么处理这类数据了。

状态更新与输出#

最早的图神经网络起源于Franco博士的论文[1],它的理论基础是不动点理论。

给定一张图 G，每个结点都有其自己的特征（feature）,本文中用

表示结点v的特征；连接两个结点的边也有自己的特征，本文中用

表示结点v与结点u之间边的特征；GNN的学习目标是获得每个结点的图感知的隐藏状态

（stateembedding），这就意味着：

对于每个节点，它的隐藏状态包含了来自邻居节点的信息。

那么，如何让每个结点都感知到图上其他的结点呢？

GNN通过迭代式更新所有结点的隐藏状态来实现，在t+1时刻，结点v的隐藏状态按照如下方式更新：

上式中的

就是隐藏状态的状态更新函数，在论文中也被称为局部转移函数（localtransactionfunction）。

公式中的

指的是与结点v相邻的边的特征，

指的是结点v的邻居结点的特征，

则指邻居结点在t时刻的隐藏状态。

注意

是对所有结点都成立的，是一个全局共享的函数。

那么如何将它与深度学习结合在一起呢？

即利用神经网络（NeuralNetwork）来拟合这个复杂函数

。

值得一提的是，虽然看起来

的输入是不定长参数，但在

内部我们可以先将不定长的参数通过一定操作变成一个固定的参数，比如说用所有隐藏状态的加和来代表所有隐藏状态。

如下图：

假设结点5为中心结点，其隐藏状态的更新函数如图所示。

这个更新公式表达的思想自然又贴切：

不断地利用当前时刻邻居结点的隐藏状态作为部分输入来生成下一时刻中心结点的隐藏状态，直到每个结点的隐藏状态变化幅度很小，整个图的信息流动趋于平稳。

至此，每个结点都“知晓”了其邻居的信息。

状态更新公式仅描述了如何获取每个结点的隐藏状态，除它以外，我们还需要另外一个函数 gg来描述如何适应下游任务。

举个例子，给定一个社交网络，一个可能的下游任务是判断各个结点是否为水军账号。

在原论文中，g 又被称为局部输出函数（localoutputfunction），与

类似，g 也可以由一个神经网络来表达，它也是一个全局共享的函数。

那么，整个流程可以用下面这张图表达：

仔细观察两个时刻之间的连线，它与图的连线密切相关。

比如说在 T1时刻，结点1的状态接受来自结点3的上一时刻的隐藏状态，因为结点1与结点3相邻。

直到 Tn时刻，各个结点隐藏状态收敛，每个结点后面接一个 g即可得到该结点的输出 o。

对于不同的图来说，收敛的时刻可能不同，因为收敛是通过两个时刻pp-范数的差值是否小于某个阈值 ϵ来判定的，比如：

不动点理论

开头曾提过GNN的理论基础是不动点（thefixedpoint）理论，这里的不动点理论专指巴拿赫不动点定理（Banach'sFixedPointTheorem）。

首先我们用 F表示若干个 f堆叠得到的一个函数，也称为全局更新函数，那么图上所有结点的状态更新公式可以写成：

不动点定理指的就是，不论H0是什么，只要 F 是个压缩映射（contractionmap），H0经过不断迭代都会收敛到某一个固定的点，我们称之为不动点。

压缩映射的定义如下图：

即经过 F 变换后的新空间一定比原先的空间要小，原先的空间被压缩了。

想象这种压缩的过程不断进行，最终就会把原空间中的所有点映射到一个点上。

具体实现

在具体实现中， f 其实通过一个简单的前馈神经网络（Feed-forwardNeuralNetwork）即可实现。

比如说，一种实现方法可以是把每个邻居结点的特征、隐藏状态、每条相连边的特征以及结点本身的特征简单拼接在一起，在经过前馈神经网络后做一次简单的加和。

那我们如何保证 f是个压缩映射呢，其实是通过限制 f对 H 的偏导数矩阵的大小，这是通过一个对雅可比矩阵（JacobianMatrix）的惩罚项（Penalty）来实现的。

在代数中，有一个定理是:

f 为压缩映射的等价条件是 f 的导数要小于1。

这个等价定理可以从压缩映射的形式化定义导出， ||x|| 表示 x在空间中的范数（norm）。

坐标之间的差值可以看作向量在空间中的距离，根据压缩映射的定义，可以导出：

推广一下，即得到雅可比矩阵的罚项需要满足其范数小于等于c等价于压缩映射的条件。

根据拉格朗日乘子法，将有约束问题变成带罚项的无约束优化问题，训练的目标可表示成如下形式：

其中λ是超参数，与其相乘的项即为雅可比矩阵的罚项。

模型学习

在知道如何让 f接近压缩映射后，我们来具体叙述一下图神经网络中的损失 Loss是如何定义，以及模型是如何学习的。

仍然以社交网络举例，虽然每个结点都会有隐藏状态以及输出，但并不是每个结点都会有监督信号（Supervision）。

比如说，社交网络中只有部分用户被明确标记了是否为水军账号，这就构成了一个典型的结点二分类问题。

那么很自然地，模型的损失即通过这些有监督信号的结点得到。

假设监督结点一共有 p 个，模型损失可以形式化为：

那么，模型如何学习呢？

根据前向传播计算损失的过程，不难推出反向传播计算梯度的过程。

前向传播模型即为：

1.调用

若干次，比如 Tn次，直到

收敛。

2.此时每个结点的隐藏状态接近不动点的解。

3.对于有监督信号的结点，将其隐藏状态通过 g 得到输出，进而算出模型的损失。

根据上面的过程，在反向传播时，我们可以直接求出 f和 g对最终的隐藏状态

的梯度。

然而，因为模型递归调用了 f若干次，为计算 f和 g 对最初的隐藏状态

的梯度，我们需要同样递归式/迭代式地计算 Tn 次梯度。

最终得到的梯度即为 f 和 g 对

的梯度，然后该梯度用于更新模型的参数。

这个算法就是Almeida-Pineda算法[2-3]。

图神经网络（GNN）有如下特点：

1、忽略节点的输入顺序；

2、在计算过程中，节点的表示受其周围邻居节点的影响，而图本身连接不变；

3、图结构的表示，使得可以进行基于图的解释和推理。

图神经网络（GNN）尚未解决的问题（局限性）：

1、网络结构较浅，堆叠过多层数将导致所有顶点趋同（收敛至相同值）；

2、对于非结构化场景没有通用有效的图生成方法；

3、数据的不规则性导致无法应用批量化处理，节点规模过大还会令Laplace算子计算困难；

4、对于动态图（节点变化）的引入，图神经网络（GNN）无法自适应地进行改变。

参考文献：

[1]Almeida,LuisB.（June1987）. Alearningruleforasynchronousperceptronswithfeedbackinacombinatorialenvironment.IEEEFirstInternationalConferenceonNeuralNetworks.SanDiego,CA,USA.pp. 608–18.

[2]Pineda,Fernando（9November1987）.""GeneralizationofBack-PropagationtoRecurrentNeuralNetworks". PhysicalReviewLetters. 19 （59）:

2229–32.

[3]Almeida,LuisB.（June1987）. Alearningruleforasynchronousperceptronswithfeedbackinacombinatorialenvironment.IEEEFirstInternationalConferenceonNeuralNetworks.SanDiego,CA,USA.pp. 608–18.