ACM MM 2021 | MEGA：基于高效图对齐机制的多模态关系抽取

©作者 | 郑昌萌

单位 | 香港理工大学

来源 | 社媒派SMP

引言

关系抽取任务（RE）旨在识别给定一句话中两个实体的语义关系，是构建知识图谱的基本步骤，同时也在许多需要关系理解的下游任务中扮演着重要角色。现有的关系抽取模型主要依赖文本特征，在缺乏文本上下文的社交媒体中预测性能急剧下降。例如，在句子“JFK and Obama at Harvard”中，仅仅依赖句子表示，传统的模型无法将 JFK 和 Obama 的关系识别为校友（Alumni）。然而，依赖社交媒体中与文本相关的图片 post，我们能够发现在图中的两人身穿相同的学士服，从而对校友关系进行准确的预测。受此启发，我们提出了多模态关系抽取任务，旨在利用社交媒体中与文本相关的图片辅助模型更准确的识别句子中实体之间的关系。

不同于以往的多模态任务，我们发现利用视觉信息辅助模型进行关系抽取不仅需要捕捉视觉对象和文本实体之间的相关性，更需要利用图片中不同视觉对象之间的关系来辅助理解文本中不同实体之间的关系。例如，在图 1 中，仅仅依靠文本我们无法推断“Ang Lee”和“Oscar”之间存在获奖“Awarded”的关系，但是我们可以通过图片中人（man）和奖杯（trophy）之间存在握着（holding）的视觉关系，辅助模型正确的识别出获奖这一文本关系。

▲ 图1. 在Twitter中的多模态关系抽取案例

因此，为了学习视觉关系到文本关系的映射，我们提出了基于高效图对齐机制的多模态神经网络模型 MEGA，利用视觉场景图与文本依存图结构之间的结构对齐与语义对齐，寻找抽取文本关系最相关的视觉关系，从而提升关系抽取在社交媒体文本上的性能。为了验证模型的有效性，我们建立了基于 Twitter 数据的多模态关系抽取数据集 MNRE，在该数据集上的实验结果表明，MEGA 模型能够利用视觉信息补充缺失的文本语义，同时利用对齐的视觉与文本关系提升关系抽取的性能。

论文标题：

Multimodal Relation Extraction with Efficient Graph Alignment

论文作者：

郑昌萌（香港理工大学）、冯焌豪（华南理工大学）、傅泽（华南理工大学）、蔡毅（华南理工大学）、李青（香港理工大学）、王涛（伦敦国王学院）

收录会议：

ACM MM 2021

论文链接：

https://dl.acm.org/doi/pdf/10.1145/3474085.3476968

代码链接：

https://github.com/thecharm/Mega

基于高效图对齐的多模态关系抽取

在本节中，我们将具体介绍提出的基于高效图对齐的多模态关系抽取模型 MEGA，其中包括文本与视觉的语义特征表示，关系图的结构特征表示，多模态特征对齐以及实体表示拼接。

2.1 MEGA框架

▲ 图2. MEGA模型的整体框架

MEGA 模型的整体框架如图 2 所示。该模型可以概括为以下步骤：

1. 首先，我们使用预训练的 BERT 编码器表示提取文本语义。此外，我们从提供丰富视觉信息的图像中生成场景图，包括视觉对象特征和对象之间的视觉关系。为了表示图像的语义，我们将提取的场景图中的对象特征视为视觉语义特征；

2. 其次，为了获得结构表示，我们提取输入文本的句法依赖树，该树对文本信息的句法结构进行建模。场景图提取的视觉对象关系可以构建为结构图表示；

3. 第三，为了充分利用图像信息进行多模态关系提取，我们分别对齐多模态特征的结构和语义信息，以捕捉多模态信息之间的多视角相关性。然后，我们有效地合并两个对齐的结果；

4. 最后，我们将表示两个实体的文本表示和对齐的视觉表示连接起来，作为文本和图像的融合特征来预测实体的关系。

2.2 语义特征表示

我们采用预训练 BERT 进行文本语义的编码，并且在社交媒体的数据集上对预训练权重进行微调，从而获取每个 token 的 embedding 表示。和过去的命名实体识别模型一致，我们将字符级和词级别的文本表示进行拼接，旨在获取更多的形态学特征。我们采用 Faster RCNN 模型进行视觉对象语义的编码，在这里我们将对象级别的语义视为细粒度的视觉表示，其能够反映图像场景中的细节信息，能够更好的与文本实体对齐。

2.3 结构特征表示

在以前的一些工作中，句子的结构（即依赖树）可以提供重要的信息，这有利于提取两个实体之间的关系。受此启发，我们使用语法依赖树和场景图生成模型为输入文本和图像生成两个单向图，从而提供结构信息来辅助更好的对齐文本和视觉关系。值得注意的是，视觉对象特征在场景图中起着节点特征的作用。

▲ 图3. 基于语义依存解析的文本结构特征提取

具体来说，我们采用 Elmo 作为依赖树提取工具，用于获取输入文本的依存树，然后将文本中的每个单词通过依存关系连接并获得其相关的依存三元组。如图 3 所示，输入句子通过依存解析以获得单词之间的关系（例如，amod，cop）。蓝色的词表示依存关系。箭头的结尾表示这个词既是从属词也是修饰词。紫色用来表示哪个词是依赖关系的根节点。由于每个单词直接由文本中的另一个单词连接，因此文本的图表示生成为，它由单词之间的几个关系对组成。

我们通过场景图生成模型从输入图像中获得个对象和它们之间的视觉关系。由于两个对象之间的每个关系都是单向的，类似于依赖树，因此每个对象节点也指向它的依存关系。因此，我们可以获得输入图像的图表示。由图像中检测到的几个对象关系对组成。

2.4 多模态特征对齐

2.4.1 图结构对齐

图结构对齐的步骤可以总结为以下两步：（1）通过分解节点标识符的相似性矩阵获取节点表示（2）通过有效的数据结构，利用贪婪算法匹配两个图之间节点的embedding 表示来完成对齐。

▲ 图4. 多模态图结构对齐示意

具体来说，我们利用下述公式计算两个图节点之间的结构相似性：

d 为节点标识向量，其计算方式为：

其中，表示对于每一个节点 u，我们会计算一个基于 k 跳（k hop）的 D 维向量。D 为两个图 G1，G2 的最大度数（degree）。完成结构图对齐的计算后，我们将两个图（文本与视觉）进行结合，合并后的图相似性权重矩阵表示为。

2.4.2 图语义对齐

▲ 图5. 多模态图语义对齐示意

与结构相似性不同，我们还考虑引入文本和视觉对象在语义上的相似性，其流程示意图如图 5 所示。我们利用 guided attention 机制计算文本词与视觉对象之间的相关性：

其中为文本特征表示，为视觉特征表示，为文本与视觉特征纬度，为了计算方便，我们通过线性变换将二者的纬度统一。最终基于图语义对齐的相似性矩阵为。

2.4.3 多模态特征融合

本文旨在通过同时考虑文本与视觉在语义和结构图上的对齐，寻找与文本实体关系最相关的视觉关系，因此，我们将语义与结构相似性特征矩阵融合，用以决定最相关的视觉节点，并导出基于多模态对齐后的视觉表示：

2.5 实体表示拼接与关系预测

为了充分利用对齐后的视觉信息，我们将图片中的所有对齐后的视觉对象特征进行集成，并且与已知实体的语义表示（预先利用预训练 BERT 导出实体 embedding）进行拼接，最终用于预测关系类型。在这里，我们简单的采用 softmax 和 MLP 进行关系类型的预测。

实验

为了验证模型在多模态关系抽取数据集上的性能，我们首先提出了在社交媒体上的多模态关系抽取数据集 MNRE。该数据集语料来自于 Twitter 上爬取的 tweets，我们通过人工标注，最终获得了 15485 个多模态关系抽取实例，共 9201 个图片句子对，拥有 30970 个标注好的命名实体。该数据集与传统的关系抽取数据集 SemEval-2010 task 8 进行对比的结果如表 1 所示：

▲ 表1. MNRE数据集与SemEval-2010数据集的对比结果

3.1 实验结果

我们将 MEGA 模型分别与卷积神经网络模型 Glove+CNN，远程监督关系抽取模型 PCNN，基于预训练语言模型 BERT 的 SOTA 模型 MTB 分别进行了对比。为了体现模型各模块的性能，我们与分别去除了图对齐机制的 BERT+SG 模型以及仅仅去除结构对齐的 BERT+SG+Att 模型也进行了实验对比，结果如表 2 所示：

▲ 表2. MEGA模型与其他关系抽取模型的对比结果

实验表明，MEGA 模型在 Precision，Recall 和 F1 指标上都超过了现有的 SOTA 模型，并且，通过 ablation study 我们发现本文所提出的结构对齐与语义对齐能够显著提升模型在关系抽取任务上的性能。

▲ 表3. MEGA模型在数据集不同类别上与MTB模型的对比结果

我们同时进行了不同类别上的结果对比，如表 3 所示。通过类别对比结果我们可以看出，模型在某些更需要视觉对象进行补充的类别上的结果具有更加显著的提升，如 present_in 类别需要通过文本进行场景语义的识别，并与文本内容相结合，从而更加准确的识别实体间的关系。

3.2 案例分析

为了更直观的体现 MEGA 模型在多模态关系抽取任务上的有效性，我们提供了案例分析，其结果如图 6 所示：

▲ 图6. MEGA模型与基于纯文本的MTB模型以及没有采用图对齐机制的BERT+SG模型的案例对比分析

左半部分为 MEGA 模型与基于纯文本的 MTB 模型的对比结果，可以看出，我们提出的 MEGA 模型通过引入了与文本相关的视觉对象语义，在缺乏上下文的关系抽取中具有更加准确的预测性能。右半部分为 MEGA 模型与没有采用图对齐机制的 BERT+SG 模型的对比结果，我们给出了图片中所提取的视觉关系三元组。从图中可以看出，MEGA 模型通过高效的图结构与语义对齐，使得模型能够关注与文本关系相关的视觉关系，从而更准确的识别出文本关系类型。

总结

在这项工作中，我们提出了多模态关系抽取任务，旨在利用视觉信息补充缺失的文本语义，从而帮助模型更准确的识别文本中实体的关系。同时，我们提出了具有高效语义与结构对齐的多模态关系抽取模型 MEGA 与人工标注的多模态关系抽取数据集 MNRE，实验结果表明模型能够通过考虑结构与语义图的对齐，利用视觉关系辅助文本关系的识别，从而提升模型在关系抽取上的预测性能。