点击下面卡片关注我呀,每天给你送来AI技术干货!
来源:专知
人大《复杂知识库问答》最新综述论文
知识库问答旨在通过知识库回答自然语言问题。近来,大量的研究集中在语义或句法上复杂的问题上。在本文中,我们精心总结了复杂知识库问答任务的典型挑战和解决方案,介绍了复杂知识库问答的两种主流方法,即基于语义解析(基于SP)的方法和基于信息检索(基于IR)的方法。首先,我们形式化地定义了知识库问答任务并介绍了该任务下相关的数据集。然后,我们从两个类别的角度全面回顾了前沿方法,说明他们针对典型挑战的解决方案。最后,我们总结并讨论了一些仍具有挑战的未来研究方向。
https://www.zhuanzhi.ai/paper/7e7e88fb7d130c3d1f6cf508290c1946
知识库(KB)是一个结构化的数据库,它以(主题、关系、对象)的形式包含一系列事实。大型KBs,如Freebase [Bollacker et al., 2008], DBPedia [Lehmann et al., 2015]和Wikidata [Tanon et al., 2016],已经构建服务于许多下游任务。知识库问答(KBQA)是一种基于知识库的自然语言问答任务。KBQA的早期工作[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Lan et al., 2019b; Lan et al., 2019a]专注于回答一个简单的问题,其中只涉及一个单一的事实。例如,“j·k·罗琳出生在哪里?”“是一个可以用事实来回答的简单问题”(J.K.罗琳)罗琳,出生地,英国)。
最近,研究人员开始更多地关注于回答复杂问题,即复杂的KBQA任务[Hu et al., 2018b; Luo et al., 2018]。复杂问题通常包含多个主题,表达复合关系,并包含数值运算。以图1中的问题为例。这个例题的开头是“the Jeff Probst Show”。这个问题不是问一个单一的事实,而是要求由两个关系组成,即“被提名人”和“配偶”。该查询还与一个实体类型约束“(Jeff Probst,是一个电视制作人)”相关联。最后的答案应该通过选择有最早结婚日期的可能候选人来进一步汇总。一般来说,复杂问题是涉及多跳推理、约束关系、数值运算或上述几种组合的问题。
回到简单KBQA的解决方案,已经提出了两种主流方法的一些研究。这两种方法首先识别问题中的主题,并将其链接到知识库中的实体(称为主题实体)。然后,通过执行已解析的逻辑形式或在从知识库中提取的特定于问题的图中进行推理,在主题实体的邻近区域内获得答案。这两类方法在以往的工作中通常被称为基于语义解析的方法(基于SP的方法)和基于信息检索的方法(基于IR的方法)[Bordes et al., 2015; Dong et al., 2015; Hu et al., 2018a; Gu et al., 2020]。它们包括解决KBQA任务的不同工作机制。前一种方法用符号逻辑形式表示问题,然后对知识库执行它,获得最终答案。后一种方法构造一个特定于问题的图,给出与问题相关的全面信息,并根据其与问题的相关性对抽取的图中的所有实体进行排序。
然而,当将这两种主流方法应用于复杂的KBQA任务时,复杂的问题会给这两种方法的不同部分带来挑战。我们认为主要挑战如下:  
  • 现有基于SP的方法中使用的解析器难以覆盖各种复杂的查询(例如,多跳推理、约束关系和数值运算)。类似地,以前的基于ir的方法可能无法回答复杂的查询,因为它们的排序是在没有可追溯推理的情况下对小范围实体执行的。
  • 在复杂问题中,更多的关系和主题意味着更大的潜在逻辑形式的搜索空间,这将显著增加计算成本。同时,更多的关系和被试会阻碍基于IR的方法检索所有相关实体进行排序。 
  • 两种方法都把理解问题作为首要步骤。当问题在语义和句法方面都变得复杂时,就要求模型具有较强的自然语言理解和泛化能力。
  • 对于复杂问题,为答案标记ground truth路径(参见图1中的例子)是非常昂贵的。通常,只提供问答对。这表明基于SP的方法和基于IR的方法需要分别在没有正确逻辑形式和推理路径标注的情况下进行训练。这种微弱的监管信号给两种方式都带来了困难。
关于相关综述,我们观察到Wu等人[2019]和Chakraborty等人[2019]回顾了关于简单KBQA的现有工作。此外,Fu等人[2020]研究了复杂KBQA的当前进展。他们只从技术的角度提供了高级方法的一般观点,而更多地关注于电子商务领域的应用场景。与这些综述不同的是,我们的工作试图识别在以往的研究中遇到的挑战,并以全面和有序的方式广泛讨论现有的解决方案。具体来说,我们将复杂KBQA的方法根据其工作机制分为两种主流方法。我们将这两种方法的整个过程分解为一系列模块,并分析每个模块中的挑战。我们相信这种方式特别有助于读者理解挑战,以及如何在现有的复杂KBQA解决方案中解决这些挑战。此外,我们还对复杂KBQA的几个有前途的研究方向进行了展望。
说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标
”,就可以啦。

感谢支持,比心
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
继续阅读
阅读原文