©PaperWeekly 原创 · 作者 | 陈沛
单位 | 德州农工大学
研究方向 | 大语言模型和信息抽取
NeurIPS 2023 接收的 Spotlight 论文 “HYTREL: Hypergraph-enhanced Tabular Data Representation Learning” 提出了把表格建模成超图,再利用超图神经网络模型和大规模的表格数据学习得到表格语言模型。将表格建模成超图可以最大限度地保留表格的结构信息,包括表格行列排列的不变性,层级结构,以及表格单元格之间的联系等。
本文从理论和实验的角度都证实了该方法能够学得表格鲁棒的,富有表达性的表示, 并在下游四个表格表示学习任务中取得了超越基线模型的表现。
论文标题:
HYTREL: Hypergraph-enhanced Tabular Data Representation Learning
论文地址:
https://arxiv.org/abs/2307.08623

背景

表格数据的表示学习(Tabular Data Representation Learning)问题,近年来由于大语言模型的流行越来越受到关注。许多下游的表格智能任务,比如表格分类、表格信息抽取、表格问答以及表格生成等,都需要表格富有表达性、鲁棒的表示。
目前的大语言模型由于其自回归特性,使得其对于具有结构化或半结构化的特征表格数据还不能直接学得很好的表示。这就使得专门研究适合表格数据的表格语言模型以学得更好的表格数据的表示尤为重要。
表格数据,由于其天然的结构化或半结构化的特征,和序列化的自然语言有着本质的不同。下图是之前的工作提出的 TAPAS 表格语言模型,这些表格语言模型为了利用现有的语言模型的强大的语言理解能力,如 BERT,将表格数据按行排列,强行序列化 (图中将表格序列化为:col1, col2, 0, 1, 2, 3),然后利用已有的自然语言预训练目标如遮蔽词预测。
然而,这类工作都假设表格是一个序列,忽略的表格本身结构特征。我们人在理解一个表格数据时并非一行一行的读下去,而是会按照表格的结构去理解,比如从表格标题,再到各个列名,然后到感兴趣的行和单元格。基于这样的背景,本文提出基于超图的表格语言模型将克服这些工作的缺陷,最大程度地保留表格的结构信息,以学得表格数据更好的表示。
动机
我们为了最大程度地建模表格数据,将其建模成为了超图(hyper-graph)。超图是普通图的更一般化的形式,在超图中,一条边可以连接若干个节点,不只是两个节点。
如下图所示,对于一个表格,我们把所有的单元格建模成超图中的节点(绿色椭圆),然后用三种超图边将他们连接起来:列超图边连接来自同一列的节点(橙色不规则图形),行超图边连接来自同一行的节点(蓝色不规则图形),表格超图边连接来自同一个表格的所有节点(灰色不规则图形)。
这样建模的好处是我们可以最大程度的保留表格的结构信息,我们总结了表格的结构信息有以下四类, 均可由超图保留下来。
  1. 表格是具有行列排列的不变性的特征。如上图,如果将表格的第一行和第三行交换,并不会影响表格的内容;同理,交换表格的第二列和第三列,也不会影响表格内容。而超图本身的不变性特征,可以天然地建模表格的这个特征。
  2. 来自同一行或者同一列的单元格具有天然的联系。如上图中,第一列的单元格都是足球俱乐部名称,而第一行的单元格,都是 Barcelona 这只球队的不同属性。超图模型将这些单元格连起来,可以自然地学得其联系。
  3. 表格是有层级结构的:从最细粒度的单元格,到中间粒度的行与列,再到最粗粒度的表格。我们的超图模型对于不同的层级都有对应的节点或者超图边。我们将中间粒度的行与列,以及粗粒度的表格都建模成了超图边,可以保留这样的层级结构。
  4. 来自同一列或者行的单元格之间的交互联系,是多边的交互关系,而并不是两两交互关系。这是我们使用超图来建模,而非用普通图模型的重要原因。在超图中,相互连接的节点被看作是一个集合(set),集合之间的交互式多边的,而非两两之间的关系。

方法

在将表格建模成超图以后,我们利用超图神经网络在大规模的表格数据上对网络进行学习。如下图所示,我们的 HYTREL 语言模型主要由  层 HyperTrans 模块构成。HyperTrans 模块是基于超图,对其节点和超图边的表示进行更新。为了获得节点和超图边的初始表示,我们首先将表格的标题、列名、单元格中的语义信息标记化,然后通过一个词表征层,最后再池化后获得。
一个 HyperTrans 模块包含三个子模块:两个 HyperAtt 模块和一个 Hyperedge Fusion 模块。其中的 HyperAtt 的模块与 Transformer [1] 的结构类似,但为了保留超图中节点的多边交互关系,我们采用了 Set Attention [2] 而非 Self-Attention(具体区别参考文章 Section 2.2)。
第一个 HyperAtt 模块主要负责将节点信息整合到相连接的超图边上,第二个 HyperAtt 模块主要负责将超图边的信息整合到其相连的节点上,Hyperedge Fusion 模块是为了保留上一步的超图边信息不丢失。通过叠加多层 HyperTrans 结构,每个节点就能学到其较远邻居的信息,对应着表格上,每个单元格可以学到其在结构上较远邻居的信息。
在叠加  层 HyperTrans 模块后,我们获得的每个节点和超图边的更新后的表示,对应着表格单元格、行、列以及表格本身的表示。我们利用这些表示,分别用两种目标函数进行预训练:
  1. 一是基于表格单元格污损的 ELECTRA [3] 预训练目标。我们将预训练的表格数据中的 15% 的的单元格随机替换成其他值,然后利用一个全连接层对所有的单元格进行二分类,判断单元格是否被污损。
  2. 二是基于超图结构破坏的对比学习(Contrastive Learning)的预训练目标。我们将建好的超图中 30% 的连接破坏掉,以形成对比学习中的正例。对于每个表格我们破坏两次形成两个正例,然后与同一个批(batch)中的其他表格作为负例进行对比,从而进行自监督学习。

实验

通过预训练得到表格语言模型之后,我们在下游四个表格表示学习理解任务上进行评测,包括表格列分类 (Column Type Annotation),表格列关系分类(Column Property Annotation),表格分类(Table Type Detection)和表格相似性预测(Table Similarity Prediction)。从结果上来看,我们有以下发现:
  1. 我们的 HYTREL 模型在所有任务上均获得列超越强基线模型的效果,其中在 ELECTRA 上预训练的模型在前三个任务中表现最好,而对比学习预训练模型在表格相似性预测中表现最好,可能的原因是对比学习的预训练目标函数本身包括了表格的相似性预测,从而使得用其训练的模型能更好的预测表格的相似性。
  2. 我们的 HYTREL 模型,在不经过预训练的时候,仍可以获得接近强基线模型的效果,这与之前的表格语言模型 TaBERT 形成了鲜明的对比。这从实证的角度证明了将表格结构纳入到表格语言模型的有效性。

总结和展望

总而言之,本文提出了一种新颖的表格语言模型以最大限度地利用表格结构信息,将表格建模成超图然后利用超图神经网络在大规模的表格数据上进行预训练。我们的实验结果支持了建模表格结构的有效性。未来的工作可以考虑如何在现在流行的自回归大语言模型中融入表格的结构信息。更多的模型、实验和分析细节,请参考原文。
参考文献
[1] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
[2] Lee, Juho, et al. "Set transformer." (2018).
[3] Iida, Hiroshi, et al. "Tabbie: Pretrained representations of tabular data." arXiv preprint arXiv:2105.02584 (2021).
更多阅读
#投 稿 通 道#
 让你的文字被更多人看到 
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected] 
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
继续阅读
阅读原文