检索增强的大型语言模型：EMNLP 2023 检索相关论文导览

MLNLP

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | RUC AI Box

作者｜王禹淏

机构｜中国人民大学

研究方向｜自然语言处理、大语言模型

引言

随着自然语言处理领域的迅速发展，检索增强的大型语言模型（LLMs）成为了研究的前沿话题。EMNLP 2023收录的多篇论文集中探讨了如何通过各种创新方法，提升这些模型在稠密检索、问答系统和其他知识密集型任务中的性能。这些研究不仅涵盖了查询重写、稠密检索优化、检索增强的预训练方法，还包括了零样本泛化能力的提升、长文本生成的改进以及如何处理模型在生成时的“幻象”问题。这些论文展示了LLMs在不同应用场景下的潜力，如开放域问答、文本生成、领域适应，以及如何利用外部知识资源来增强模型的生成能力。

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

作者：Weiwei Sun, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren, Zhumin Chen, Dawei Yin, Zhaochun Ren

https://arxiv.org/pdf/2304.09542.pdf

简述：研究了ChatGPT和GPT-4在信息检索中的重排序性能，并提出了一个模型蒸馏方法。

本文旨在探究大型语言模型（如 ChatGPT 和 GPT-4）在信息检索（IR）任务中作为重排序代理的有效性。这项研究着眼于评估这些先进模型在执行文本相关性重排序任务时的性能，这是信息检索系统的关键组成部分。研究结果当适当地给予提示后，LLMs 能够在流行的 IR 基准测试中提供与先进的监督方法相竞争，甚至取得更佳的结果。

为了解决数据污染问题并验证模型对未知知识的排序能力，研究团队提出了一个新的测试集，名为 NovelEval。此外，为了提高实际应用中的效率，他们探索了将 ChatGPT 的排名能力通过排列蒸馏方法转移到更小的专业模型中的潜力。该方法蒸馏出的一个 440M 模型在 BEIR 基准测试上的表现甚至超过了一个 3B 的监督模型。

本篇论文获得了本届EMNLP的Outstanding Paper Award。这项研究不仅证明了 LLMs 在信息检索重排序任务中的巨大潜力，而且还为如何有效利用这些模型提供了实用的见解。通过所提出的方法，研究者们成功地提高了 IR 系统的性能，并同时考虑了模型规模和处理效率的重要性。这些发现对于推进信息检索技术的发展，特别是在大型预训练模型的应用方面，具有重要的意义。

Query Rewriting in Retrieval-Augmented Large Language Models

作者：Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan

https://arxiv.org/pdf/2305.14283.pdf

简述：探讨了一个创新的“Rewrite-Retrieve-Read”框架，通过查询重写步骤优化信息检索。

本文探讨了利用查询重写来增强大型语言模型（LLM）在信息检索中的性能。在检索所需知识时，输入文本和所需知识之间不可避免地存在差距。为解决这一问题，作者提出了一个创新的“Rewrite-Retrieve-Read”框架。这个框架通过在标准的检索-阅读方法前增加一个查询重写步骤，从而缩小输入文本与实际检索需求之间的差距。具体来说，该方法利用一个小型可训练的语言模型作为“重写器”，通过强化学习对搜索查询进行调整，以更好地适配冻结的LLM阅读器。这一过程不仅提高了信息检索的相关性和准确性，还为如何有效地整合外部信息源与LLM提供了新的视角。

在实验方面，研究团队采用了T5-large模型作为重写器，并选择了微软必应搜索引擎作为检索工具。作为阅读器的部分，他们使用了ChatGPT和Vicuna-13B等LLM。通过在开放域问答和多选问答任务上的测试，实验结果显示了查询重写在提升检索增强LLM性能方面的显著效果。这不仅验证了提出框架的有效性，也展示了其在实际应用中的可扩展性。

Enhancing the Ranking Context of Dense Retrieval through Reciprocal Nearest Neighbors

作者：George Zerveas, Navid Rekabsaz, Carsten Eickhoff

https://aclanthology.org/2023.emnlp-main.665.pdf

简述：提出利用互惠最邻近方法改进稠密检索模型中的文档排序。

本文探讨了如何改进稠密检索模型中的排名环境。他们指出，由于数据标注的稀疏性，利用传统的最近邻方法进行文档排序时，常常会忽略那些未标注但相关的文档，从而导致检索结果的不准确。为了解决这一问题，他们提出了一种新的方法，即使用互惠最邻近（reciprocal nearest neighbors，rNN）来改善文档之间的语义相似性估计。此外，他们还引入了基于证据的标签平滑技术，该技术通过计算查询和候选文档之间的目标相关性分布，避免因错误负样本而对模型进行错误的惩罚。通过这种方法，他们能够更有效地识别和处理那些被误标为不相关的相关文档，从而提高整体检索的效果。

在实验方面，作者在两个大规模的文本检索数据集上进行了广泛的测试。他们发现，利用互惠最邻近的方法可以显著提升稠密检索模型的排名效果，无论是在标签平滑的训练过程中，还是在推理时的重新排序中。这些实验结果不仅证明了他们方法的有效性，还显示了在考虑文档和查询之间的关系时，超越简单的几何距离是可行且有效的。此外，作者强调了计算效率的重要性，他们的标签平滑技术可以完全在CPU上离线执行，并且易于并行化，不会在训练过程中引入延迟。总体来看，这项研究为解决稀疏标注问题提供了一种实用的解决方案，对于提升稠密检索模型的排名环境具有重要意义。

Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study How Does Generative Retrieval Scale to Millions of Passages?

作者：Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu, Mohammad Shoeybi, Yi Dong, Oleksii Kuchaiev, Bo Li, Chaowei Xiao, Anima Anandkumar, Bryan Catanzaro

https://arxiv.org/pdf/2304.06762.pdf

简述：研究了将检索机制整合到自回归语言模型预训练过程中的效果。

探讨了将检索机制整合到自回归语言模型的预训练过程中的可能性和效果。文章重点研究了RETRO（Retrieval-Enhanced Transformer）这一可扩展的预训练检索增强语言模型，并将其与标准GPT模型进行比较。RETRO模型通过在预训练过程中使用检索机制，实现了在减少模型参数的同时保持或提升性能。研究的核心在于评估RETRO在文本生成和下游任务中的效果，特别是与传统的GPT模型相比。文章的目的是为了探究在未来预训练自回归语言模型时，是否应默认集成检索机制。

实验方面，研究团队首先提供了一个可重现RETRO模型的方法，该模型最多可达到95亿参数，检索超过3300亿个标记的文本语料库。他们的新发现包括RETRO在文本生成方面的性能优于GPT，具有更少的重复性、适度更高的事实准确性和略低的毒性水平。在LM评估工具基准测试中，RETRO在知识密集型任务上大幅超过GPT，但在其他任务上与GPT表现相当。此外，研究者们还引入了RETRO的一个变体模型，RETRO++，它在开放域问答任务中大大提高了原始RETRO的效果（例如，在Natural Question上的准确匹配得分提高了探讨了将检索机制整合到自回归语言模型的预训练过程中的可能性和效果。文章重点研究了RETRO（Retrieval-Enhanced Transformer）这一可扩展的预训练检索增强语言模型，并将其与标准GPT模型进行比较。RETRO模型通过在预训练过程中使用检索机制，实现了在减少模型参数的同时保持或提升性能。研究的核心在于评估RETRO在文本生成和下游任务中的效果，特别是与传统的GPT模型相比。文章的目的是为了探究在未来预训练自回归语言模型时，是否应默认集成检索机制。

Augmenting Zero-Shot Dense Retrievers with Plug-in Mixture-of-Memories

作者：Suyu Ge, Chenyan Xiong, Corby Rosset, Arnold Overwijk, Jiawei Han, Paul Bennett

https://arxiv.org/pdf/2302.03754.pdf

简述：提出Mixture-Of-Memory Augmentation (MoMA)机制，提高零样本泛化能力。

提出了一种新颖的机制——Mixture-Of-Memory Augmentation (MoMA)，以提高语言模型的零样本泛化能力。MoMA 通过从多个信息库（被称为“外部记忆”）检索文档来实现，且能够在推理时插入新的记忆源。这种方法的核心是一个联合学习机制，该机制使用来自最终检索任务的潜在标签以及来自记忆混合体的硬负样本来训练增强组件。文章专注于零样本密集检索设置，通过 MoMA 增强基于 T5 的检索器。在标准的 BEIR 基准测试中，MoMA 在十八个任务中展示了强大的零样本检索准确性，超越了依赖于增加模型参数和计算步骤的系统。

在实验设置方面，研究团队使用 MS MARCO 通道数据集作为源域数据集，目标域则来自 BEIR 基准测试的十八个数据集，涵盖了生物医学、科学和金融等多个领域的文本。在训练过程中，MoMA 从包括源训练语料库、维基百科和医学知识图谱在内的多个语料库中检索增强文档。测试时，将源语料库替换为 BEIR 中每个任务对应的文档集。MoMA 的性能与标准稀疏和密集检索模型以及为零样本泛化设计的先进方法进行了比较。MoMA 在两个版本的 T5 模型检查点上实施：基本版本建立在原始 T5 模型上（MoMA T5-ANCE），高级版本应用了对比性预训练的 T5 模型（MoMA COCO）。结果表明，与 ANCE（近似最近邻对比估计）训练框架结合时，MoMA 显著优于没有 MoMA 增强组件的对应系统，以及同等规模的最新密集检索系统。作者计划开源他们的代码，为检索增强语言模型的发展做出贡献。

Query-as-context Pre-training for Dense Passage Retrieval

作者：Xing Wu, Guangyuan Ma, Wanhui Qian, Zijia Lin, Songlin Hu

https://aclanthology.org/2023.emnlp-main.118.pdf

简述：介绍了一种新的稠密检索预训练方法，通过生成的查询改进训练对。

文章提出了一种新的稠密检索的预训练方法，旨在解决当前上下文监督预训练方法的局限性。传统方法通常认为同一文档中的两段落是相关的，但这种假设往往不成立，因为文档内的许多段落可能关联性较弱或不相关。因此，作者引入了一种称为“query-as-context预训练”的技术，该技术假设从段落生成的查询更可能与该段落相关，形成更有意义的段落-查询对。这种方法与现有的使用文档中随机选择的两个段落形成训练对的方法形成对比。该方法的有效性通过大规模网络搜索基准测试（如MS-MARCO Passage Ranking）和域外零样本基准测试（如BEIR）进行评估。结果显示，query-as-context预训练在检索性能上取得了显著提升，证实了其有效性和效率。

预训练过程包括使用精调的T5模型从段落生成查询，然后用这些查询和段落形成训练对。提出的query-as-context方法具有几个优点：确保段落和查询之间的更高相关性，使预训练与下游监督检索训练更加一致，由于段落-查询对比段落-段落对更短，从而减少了训练开销。在MS-MARCO数据集上对预训练模型进行微调，以验证预训练的有效性。这包括使用硬负样本挖掘的两阶段流程对两个检索器进行训练，这两个检索器都是使用query-as-context预训练模型初始化的，并使用InfoNCE损失进行优化。研究显示，query-as-context预训练加速了预训练过程，并取得了显著的性能提升，展示了其作为稠密检索有效预训练技术的潜力。

Optimizing Retrieval-augmented Reader Models via Token Elimination

作者：Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat

https://arxiv.org/pdf/2310.13682.pdf

简述：提出一种优化方法，通过消除不重要的tokens提升检索增强型语言模型的效率。

本文提出了一种针对检索增强型语言模型的优化方法。这种方法主要用于处理开放域任务，如问题回答和事实核查等，其中使用了一种称为Fusion-in-Decoder (FiD)的模型。在FiD中，首先检索相关文段，然后使用生成模型（Reader）进行处理。这个过程在解码时间上可能会造成显著的瓶颈，特别是在产生长输出时。因此，本研究分析了所有检索到的文段对于阅读器模型性能的贡献和必要性，并提出了在解码阶段动态计算其重要性，从而消除一些可能不会对回答生成过程提供重要信息的检索信息（即文段内的token）。

为了提高效率并减少延迟，作者结合了他们的Token Filtering方法和动态解码器层跳过（称为CALM）的方法。通过在三个LFQA数据集上进行实验，发现这种方法在大多数情况下提供了比单独使用这些方法更好的性能与效率权衡。具体来说，该方法可以将MS MARCO数据集上的生成时间节省高达62.2%，NQ上节省54.9%，ELI5上节省40.9%，同时性能下降不超过2%。在没有计算限制的情况下，该方法在KILT的ELI5任务中达到了最先进的性能。

文章的主要贡献包括：分析FiD模型的性能与效率权衡；提出一种提高FiD效率的新方法，结合了Token Filtering和解码器层减少，以在长形式回答生成过程中移除token和不相关的层；展示了使用该方法的模型在三个数据集上的时间节约，同时性能损失最小；并在没有计算限制的情况下，达到了ELI5任务的最先进性能。

Merging Generated and Retrieved Knowledge for Open-Domain QA

作者：Yunxiang Zhang, Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang

https://arxiv.org/pdf/2310.14393.pdf

简述：探讨了如何结合检索到的知识和生成知识来提高开放域问答的性能。

探讨了如何有效结合检索到的知识和大型语言模型（LLMs）生成的知识来提高开放域问答（QA）的性能。传统的开放域QA系统通常采用检索模块来获取信息，但这种方法面临知识覆盖不足的问题。作为替代，LLMs可以基于其参数知识生成与问题相关的文本，从而提高QA性能。然而，LLMs倾向于生成与检索知识相冲突的内容，这被称为“幻象”问题。

为了解决这一挑战，作者提出了一种名为COMBO（Compatibility-Oriented knowledge Merging for Better Open-domain QA）的框架，旨在有效利用这两种信息源。具体来说，COMBO将LLM生成的文段与检索到的文段匹配成兼容对，基于用银标签（silver labels）训练的鉴别器。然后，一个基于Fusion-in-Decoder的阅读器模型处理这些文段对，以得出最终答案。实验表明，COMBO在四个开放域QA基准测试中的三个上优于竞争基线。进一步分析揭示，COMBO在存在较高知识冲突的情况下表现出更大的有效性。

The Effect of Scaling, Retrieval Augmentation and Form on the Factual Consistency of Language Models

作者：Lovisa Hagström, Denitsa Saynova, Tobias Norlund, Moa Johansson, 和 Richard Johansson

https://arxiv.org/pdf/2311.01307.pdf

简述：评估了增加模型规模和检索语料库对LLMs事实一致性的影响。

本文探讨了影响大型语言模型（LLMs）事实一致性的因素，并评估了两种缓解策略的有效性：扩展模型规模和增加检索语料库。研究表明，这两种策略都能减少不一致性，其中检索增强更为高效。文章还深入探讨了不同组件对模型一致性的贡献，并发现评估任务的句法形式及其他因素对一致性有显著影响。

研究团队首先分析了ParaRel基准测试，这是一个用于评估模型在面对语义等效问题时的一致性的测试。他们开发了改进版本ParaRel*,在此基础上进行了评估。结果显示，随着模型规模的增加，LLMs的一致性得到了改善，但收益递减。此外，使用检索增强的模型（如Atlas）在ParaRel*任务上的表现优于非检索增强的基线模型。

研究还发现，评估任务的格式对模型的一致性有影响。例如，模板不通顺或对象不自然的表达方式会影响模型的一致性。此外，还研究了检索组件对一致性的影响。例如，通过干预检索结果，研究人员发现一致且相关的检索结果可以提高模型的一致性，而不相关的检索结果则不会。

Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context Learning

作者：Quanyu Long, Wenya Wang, Sinno Jialin Pan

https://arxiv.org/pdf/2311.11551.pdf

简述：探索了一种名为“领域适应性上下文学习”的新领域适应方法。

文章探索了一种新颖的领域适应方法，称为“领域适应性上下文学习”（DAICL）。这项研究旨在解决大型语言模型（LLMs）在跨领域学习和处理长尾知识方面的挑战，特别是在目标领域标签不可用的情况下。

DAICL的核心思想是利用检索增强的方式，从目标领域未标记的数据中检索出与源域查询语义上相似的例子，然后将这些例子作为上下文与源域查询结合，通过上下文学习来适应目标领域。这种方法使语言模型能够同时学习目标领域的分布和任务信号，从而促进知识转移。

作者为不同架构的语言模型（包括仅编码器和仅解码器模型）设计了具体的提示和微调策略，并在情感分析（SA）和命名实体识别（NER）任务上进行了广泛的实验。实验结果表明，DAICL有效地提高了跨领域迁移的性能，并且与基线模型相比取得了显著的改进。

Active Retrieval Augmented Generation

作者：Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig

https://arxiv.org/pdf/2305.06983.pdf

简述：研究了一种名为FLARE的方法，通过检索外部信息来增强语言模型的生成过程。

本文研究了一种新的增强型语言模型（LMs）方法，旨在解决大型语言模型在生成过程中可能出现的错误和虚构内容的问题。这种方法通过从外部知识资源中检索信息来增强语言模型，称为主动检索增强生成（Active Retrieval Augmented Generation）。

尽管大型语言模型在理解和生成语言方面表现出色，但它们往往会产生虚构的不准确内容。为了解决这个问题，研究者们提出了一种名为FLARE（Forward-Looking Active REtrieval augmented generation）的方法。FLARE是一种迭代式方法，它使用对未来句子的预测来预判未来的内容，然后利用这些预测作为查询来检索相关文档，以重新生成包含低置信度词汇的句子。

FLARE与传统的单次检索增强语言模型不同，后者通常只在输入的基础上进行一次检索。FLARE则在整个生成过程中不断地收集信息，这对于生成长文本尤为重要。例如，为了生成关于特定话题的摘要，初始检索可能无法涵盖所有方面和细节，因此在生成过程中需要检索额外信息。

FLARE的有效性在多个长文本知识密集型生成任务/数据集上得到了验证，包括多跳问答、常识推理、长形式问答和开放域摘要等。FLARE在所有任务上都实现了优越或竞争性的性能，证明了该方法的有效性。

总体来说，这项工作为利用外部知识资源增强大型语言模型的生成能力提供了一种有效的方法，并展示了其在处理复杂长文本生成任务时的潜力。

总结

本文回顾了EMNLP 2023会议中关于文本检索和生成领域的一系列论文。这些论文体现了在利用检索增强的大型语言模型进行文本检索和生成方面的具体研究进展。研究内容涵盖了查询重写技术、稠密检索系统优化，以及预训练模型在生成任务中的应用等多个方面，展示了当前技术的实际发展水平和应用潜力。这些工作提供了对现有技术的详细评估，同时指出了未来研究可能的方向。总的来说，这些论文为文本检索和生成领域的学术研究和实践应用提供了实证基础和参考视角。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

继续阅读

阅读原文