每天给你送来NLP技术干货!


来自:NLP日志
提纲
1简介
2发展历史
3.发展方向
3.1 Utilizing more data
3.2 Performing more efficient learning
3.3 Handling more complicated context
3.4 Orienting more open domains
4其他挑战
41. Learning from text or names
4.2 RE datasets toward special interests
5总结
参考文献
1 简介
这个世界存在很多关系化的事实,它们可以由结构化的三元组表示,三元组的第一个位置跟第三个位置分别表示相应的实体,而中间的位置记录这两个实体的关系。例如“周恩来出生于中国”可以记录为(周恩来,出生于,中国)。这些结构化的三元组可以帮助模型更好的理解上下文,对很多下游任务都有帮助,但是如何从非结构化的数据提取到这些结构化的三元组?这就涉及到信息抽取的范畴了。
信息抽取旨在从非结构化的文本中抽取出结构化信息,是自然语言处理的一个重要领域。而关系抽取,作为信息抽取领域的一个重要任务,主要聚焦在如何抽取实体之间的关系。例如上述样例中的“出生于”。一个完整的信息抽取系统包括负责抽取实体的命名实体识别任务,将抽取的实体关联到知识库的实体链接任务,以及判断实体之间关系的关系抽取任务等。而其中的如何判断实体间关系的实体抽取任务尤为关键且困难,它需要模型能完全理解文本的语义信息。
图1:信息抽取系统样例
关系抽取一般都处理成文本分类任务,就是将实体之间的关系分到某一种关系类别中,但是跟传统的文本分类任务不一样,传统的文本分类任务将全部文本作为模型输入,而关系抽取任务则不然,关系抽取任务更聚焦在实体和连接实体之间的文本中。
2 发展历史
    关系抽取的发展历史可以分为三个阶段。早期的关系抽取主要借助于句子分析工具去识别文本中的句法元素,然后从这些元素中自动构建相关的模式规则。由于自动构建规则的方式可能带有一定的错误,大部分这种方法需要专家们的进一步校验,这也是依赖于规则的方法的主要局限。第二阶段的方法是统计相关的方法,其中一种典型的方式就是基于特征的方法,利用机器学习的方法,输入实体以及对应的文本的文字,句法或者语言相关的特征,做一个关系的分类。此外,还有一些聚焦于抽取文本隐藏信息的方法,例如跟图相关的方法。基于统计的方法虽然曾被广泛应用,但是依旧面临挑战。基于特征的方法需要大量设计特征的工作,而基于图的方法则在模型容量上有所限制。现阶段神经网络的方法能有效的提取文本信息,并且具有强大的泛化能力,极大的提升了关系抽取任务的效果,逐渐成为更加主流的做法。
3 发展方向
虽然基于神经网络的方法已经在关系抽取任务取得惊人的表现,但是距离真正解决关系抽取任务的目标还有很长的距离。大部分神经网络的方法都需要大量人工标注的数据,同时只是为了从单个句子抽取预先定义好的关系而设计。这也就导致了很难应用到更加复杂的场景中,事实上,已经有很多探索更灵活的方法以便更好的将关系抽取能力应用到现实场景中的工作,主要分为以下4个方向。
3.1 Utilizing more data
由于神经网络的方法受限于缺乏大量高质量的监督数据,不少人为了缓解这个问题,想要通过远程监督学习的方法去给大量无标注数据打上标签。例如图中样例,对于任何一个文本,只要能文本在知识库中找到实体对,就给这个文本打上对应的关系(知识库中的关系)。但是这种方式可能会有问题,知识库存放的三元组是(Apple Inc., product, iPhone),但是文本“I look up Apple Inc. on my iPhone”里的关系明显不是product。为了消除这种问题,有几种远程监督学习的方法。
  1. a)从多个包含该实体对的样例中选择最有信息量的样例。
  2. b)引入额外的文本信息。
  3. c)使用更加复杂的机制和训练策略。
图2:关系抽取中的远程监督学习
3.2 Performing more efficient learning
真实场景下的关系分布是长尾的,绝大多数关系都只有少量的相关文本。这种现象的存在要求模型要更加有效的学习到那些长尾的关系,而few shot learning正好可以满足这种要求。Few shot的一般思想是训练一个合适的表征或者学习一种快速适配的方式,从而能够顺利迁移到新的任务中去。
3.3 Handling more complicated context
图3:基于文档的关系抽取样例
    如图中样例,一个文档中可以会提及多种实体,同时包含多种复杂的关系。现存的方法大多聚焦在一个句子内的关系抽取,远不能去识别同一个文档的内实体关系。目前也有部分工作聚焦于从多个句子中抽取实体的关系。
    a)依赖从多种句法结构(包括指代,句法依存树等)中抽取的特征去链接文档中的不同句子。
  1. b)利用多个实体间的路径去推理真实的关系。
  2. c)利用图神经网络去建模不同句子间的依赖关系。
后续还有其他一些方向值得探索。
    a)从复杂文本中抽取关系需要模型具备相应的阅读,记录和推理能力,目前大多数基于神经网络的关系抽取模型在这些方面的能力相对薄弱。
    b)除了文档,更多形式的上下文的关系抽取也值得探索。
    c)利用外部信息去自动搜索和分析问题有助于识别关系化实体,在现实场景更加实用。
3.4 Orientint more open domains
大多数关系抽取系统只能应用于专家设计的预先定义好的关系集,但是真实场景下不断有新的关系出现,让专家去处理所有出现的关系类型并不现实。为此,有些工作聚焦于去处理开放的关系,包括开放式的抽取所有类型的关系化事实和挖掘新的关系类型。但是目前开放域的关系抽取还有一些未解决的问题。
    a)关系短语和声明标准化,例如(Obama, was born in Honolulu)跟(Obama, place of birth, Honolulu)指的的是同一个三元关系组,所以标准化才能保证同一种关系类型只有一种短语和声明表示,否则会有冗余和模棱两可的问题。
    b)无关系类型的处理,很多方法都是假设同一个句子中的两个实体存在某种关系,但是现实场景下很多出现在同一个句子下的实体对之间并不存在关系。如何在关系类型挖掘中去更好的处理没有关系类型的case也是一个值得关注的问题。
4 其他挑战
4.1 Learning from text of names
在关系抽取过程中,无论是实体名还是相关上下文都为关系分类提供了有用的信息。实体名提供了类型信息,有助于缩小可能关系的范围,而关系大部分是从实体对之间的上下文的语义中抽取到的。通过实验也发现实体名跟上下文都能给关系抽取模型提供必要信息,这也跟人的常识不同,我们在判断实体对关系时多依赖于相关的上下文描述,但模型却能从实体名中学到很多信息。为了更好的理解语言是如何表达关系化事实的,这个问题需要被进一步探索。
图4:不同设置下关系抽取的效果
4.2 RE datasets toward special interests 
    目前缺乏指定特定问题的关系抽取的数据集,例如,跨句子的关系抽取是一个重要课题,但是目前缺乏这种的数据集供大家研究。
5 总结
基于神经网络的关系抽取方法虽然在简单场景下取得惊人表现,但是应用到更加复杂和广泛的现实场景还有一定距离。目前人们朝着多个有前景的方向上走进一步深入研究,希望后面有新的突破出现,真正将关系抽取的能力落地到现实场景中去。不仅仅是关系抽取,很多其他NLP任务也有同样的问题,如何摆脱一个预先定义好的小场景?如何才能更广泛的应用到现实场景中去?
参考文献
1.(2022,) More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction
https://arxiv.org/abs/2004.03186

最近文章

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套
下载二:南大模式识别PPT后台回复南大模式识别

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦
整理不易,还望给个在看!
继续阅读
阅读原文