NeurIPS 2023 Spotlight | 基于超图的表格语言模型

©PaperWeekly 原创 · 作者 | 陈沛

单位 | 德州农工大学

研究方向 | 大语言模型和信息抽取

NeurIPS 2023 接收的 Spotlight 论文 “HYTREL: Hypergraph-enhanced Tabular Data Representation Learning” 提出了把表格建模成超图，再利用超图神经网络模型和大规模的表格数据学习得到表格语言模型。将表格建模成超图可以最大限度地保留表格的结构信息，包括表格行列排列的不变性，层级结构，以及表格单元格之间的联系等。

本文从理论和实验的角度都证实了该方法能够学得表格鲁棒的，富有表达性的表示，并在下游四个表格表示学习任务中取得了超越基线模型的表现。

论文标题：

HYTREL: Hypergraph-enhanced Tabular Data Representation Learning

论文地址：

https://arxiv.org/abs/2307.08623

背景

表格数据的表示学习（Tabular Data Representation Learning）问题，近年来由于大语言模型的流行越来越受到关注。许多下游的表格智能任务，比如表格分类、表格信息抽取、表格问答以及表格生成等，都需要表格富有表达性、鲁棒的表示。

目前的大语言模型由于其自回归特性，使得其对于具有结构化或半结构化的特征表格数据还不能直接学得很好的表示。这就使得专门研究适合表格数据的表格语言模型以学得更好的表格数据的表示尤为重要。

表格数据，由于其天然的结构化或半结构化的特征，和序列化的自然语言有着本质的不同。下图是之前的工作提出的 TAPAS 表格语言模型，这些表格语言模型为了利用现有的语言模型的强大的语言理解能力，如 BERT，将表格数据按行排列，强行序列化（图中将表格序列化为：col1, col2, 0, 1, 2, 3），然后利用已有的自然语言预训练目标如遮蔽词预测。

然而，这类工作都假设表格是一个序列，忽略的表格本身结构特征。我们人在理解一个表格数据时并非一行一行的读下去，而是会按照表格的结构去理解，比如从表格标题，再到各个列名，然后到感兴趣的行和单元格。基于这样的背景，本文提出基于超图的表格语言模型将克服这些工作的缺陷，最大程度地保留表格的结构信息，以学得表格数据更好的表示。

动机

我们为了最大程度地建模表格数据，将其建模成为了超图（hyper-graph）。超图是普通图的更一般化的形式，在超图中，一条边可以连接若干个节点，不只是两个节点。

如下图所示，对于一个表格，我们把所有的单元格建模成超图中的节点（绿色椭圆），然后用三种超图边将他们连接起来：列超图边连接来自同一列的节点（橙色不规则图形），行超图边连接来自同一行的节点（蓝色不规则图形），表格超图边连接来自同一个表格的所有节点（灰色不规则图形）。

这样建模的好处是我们可以最大程度的保留表格的结构信息，我们总结了表格的结构信息有以下四类，均可由超图保留下来。

表格是具有行列排列的不变性的特征。如上图，如果将表格的第一行和第三行交换，并不会影响表格的内容；同理，交换表格的第二列和第三列，也不会影响表格内容。而超图本身的不变性特征，可以天然地建模表格的这个特征。
来自同一行或者同一列的单元格具有天然的联系。如上图中，第一列的单元格都是足球俱乐部名称，而第一行的单元格，都是 Barcelona 这只球队的不同属性。超图模型将这些单元格连起来，可以自然地学得其联系。
表格是有层级结构的：从最细粒度的单元格，到中间粒度的行与列，再到最粗粒度的表格。我们的超图模型对于不同的层级都有对应的节点或者超图边。我们将中间粒度的行与列，以及粗粒度的表格都建模成了超图边，可以保留这样的层级结构。
来自同一列或者行的单元格之间的交互联系，是多边的交互关系，而并不是两两交互关系。这是我们使用超图来建模，而非用普通图模型的重要原因。在超图中，相互连接的节点被看作是一个集合（set），集合之间的交互式多边的，而非两两之间的关系。

方法

在将表格建模成超图以后，我们利用超图神经网络在大规模的表格数据上对网络进行学习。如下图所示，我们的 HYTREL 语言模型主要由层 HyperTrans 模块构成。HyperTrans 模块是基于超图，对其节点和超图边的表示进行更新。为了获得节点和超图边的初始表示，我们首先将表格的标题、列名、单元格中的语义信息标记化，然后通过一个词表征层，最后再池化后获得。

一个 HyperTrans 模块包含三个子模块：两个 HyperAtt 模块和一个 Hyperedge Fusion 模块。其中的 HyperAtt 的模块与 Transformer [1] 的结构类似，但为了保留超图中节点的多边交互关系，我们采用了 Set Attention [2] 而非 Self-Attention（具体区别参考文章 Section 2.2）。

第一个 HyperAtt 模块主要负责将节点信息整合到相连接的超图边上，第二个 HyperAtt 模块主要负责将超图边的信息整合到其相连的节点上，Hyperedge Fusion 模块是为了保留上一步的超图边信息不丢失。通过叠加多层 HyperTrans 结构，每个节点就能学到其较远邻居的信息，对应着表格上，每个单元格可以学到其在结构上较远邻居的信息。

在叠加层 HyperTrans 模块后，我们获得的每个节点和超图边的更新后的表示，对应着表格单元格、行、列以及表格本身的表示。我们利用这些表示，分别用两种目标函数进行预训练：

一是基于表格单元格污损的 ELECTRA [3] 预训练目标。我们将预训练的表格数据中的 15% 的的单元格随机替换成其他值，然后利用一个全连接层对所有的单元格进行二分类，判断单元格是否被污损。
二是基于超图结构破坏的对比学习（Contrastive Learning）的预训练目标。我们将建好的超图中 30% 的连接破坏掉，以形成对比学习中的正例。对于每个表格我们破坏两次形成两个正例，然后与同一个批（batch）中的其他表格作为负例进行对比，从而进行自监督学习。

实验

通过预训练得到表格语言模型之后，我们在下游四个表格表示学习理解任务上进行评测，包括表格列分类（Column Type Annotation），表格列关系分类（Column Property Annotation），表格分类（Table Type Detection）和表格相似性预测（Table Similarity Prediction）。从结果上来看，我们有以下发现：

我们的 HYTREL 模型在所有任务上均获得列超越强基线模型的效果，其中在 ELECTRA 上预训练的模型在前三个任务中表现最好，而对比学习预训练模型在表格相似性预测中表现最好，可能的原因是对比学习的预训练目标函数本身包括了表格的相似性预测，从而使得用其训练的模型能更好的预测表格的相似性。
我们的 HYTREL 模型，在不经过预训练的时候，仍可以获得接近强基线模型的效果，这与之前的表格语言模型 TaBERT 形成了鲜明的对比。这从实证的角度证明了将表格结构纳入到表格语言模型的有效性。