信息抽取新SOTA!首个结构化生成式信息抽取预训练模型,一统信息抽取四大任务
©PaperWeekly 原创 · 作者 | 樊润泽
单位 | 中科院计算技术研究所
研究方向 | 信息抽取
论文标题:
Unified Structure Generation for Universal Information Extraction
论文作者:
Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu
作者单位:
中科院软件所中文信息处理实验室,百度
收录会议:
ACL 2022
论文链接:
https://arxiv.org/abs/2203.12277
Demo链接:
https://universal-ie.github.io/
研究背景与动机
- 由于不同的任务、不同的设置(全监督、低资源、少样本、零样本)、不同的作用场景(医学、金融等),研究人员需要设计大量针对特定情况的模型,这是一件极其耗费资源的事情。
不同的任务有很多可以公用的知识,比如从图 1 中的(a)图可以看出,关系抽取需要用到命名实体识别的结果,事件抽取中的论元也是实体,而现在存在大量的针对特定任务的模型无法做到共享这些实体知识。 信息抽取的数据标注是一件极其耗费时间和人力的事情,但由于任务之间的独立,需要对每一个任务都标注数据。
- 设计了一种结构化抽取语言(Structural Extraction Language, SEL),它能够将四种信息抽取任务的不同结构统一描述,使得模型的输出结构针对不同任务都是一致的。
由于模型可以做多个任务,所以需要一种方式去指导模型做指定的任务,因此作者设计了结构化模式指导器(Structural Schema Instructor, SSI),其实这就是一种 prompt。 - 由于模型的输出都是符合 SEL 语法的结构化信息,而目前常用的生成式预训练模型如 T5、BART 都是以生成自然语言为主,若直接采用这种预训练模型会影响到模型性能,因此作者专门针对 text to structure 的结构来预训练了一个大模型。
如何统一每一个信息抽取任务?
2.1 统一信息抽取任务输出结构的结构化抽取语言SEL
Spotting:指在输入的原句中找到目标信息片段,比如说实体识别中某个类型的实体,事件抽取中的触发词和论元,他们都是原句中的片段。 - Associating:指找出 Spotting 输出的信息片段之间的关系,比如关系抽取中两个实体之间的关系,或事件抽取中论元和触发词之间的关系。
2.2 指导模型做特定任务的结构化模式指导器SSI
预训练与微调
3.1 预训练数据
主要由 Wikipedia、Wikidata 和 ConceptNet 三部分组成,作者通过这三部分数据构造了如下三种形式的预训练数据:
:(token sequence ,structured record ),数据表示为 :只有基于 SEL 语法的结构性 record,数据表示为 :只有无结构的原始文本数据,做 masked language model tasks,数据表示为 。
3.2 预训练任务
3.3 微调
微调部分和预训练任务的 类似,数据形式是 ,微调的 Loss 计算方式如式(9)所示。
实验
4.1 全监督实验
4.2 低资源(Low-resource)实验
4.3 消融实验
如图 8 所示,首先是预训练部分的消融实验,分别去掉三个预训练任务,观察其最终结果可以看到:(1)对于关系抽取和观点抽取的两个数据集来说, 和 非常重要,因为从 T5 到移除了 后,结果在关系抽取中从 72.12 升到了 75.70,在观点抽取中从 72.03 升到了 74.28,可以看到 和 带来了非常大的性能提升。(2) 对于事件抽取这种复杂任务非常重要,若移除 ,触发词识别的结果从 72.63 降到了 70.89,论元识别的结果从 57.27 降到了 54.16。(3) 对模型的抽取能力帮助很大,移除掉 以后,关系抽取性能下降了 0.90,事件抽取下降了 1.43/1.48,观点抽取下降了 0.46。
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关键词
模型
关系抽取
数据集
信息抽取
类型
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。