MLNLP

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 新智元

「AIGC的繁荣会淹没UGC吗？」

最近，来自人大、中科院计算所和华为的研究者们的2项工作揭示了主流的神经检索模型对于AIGC的内容的"源偏见"（Source Bias），这一研究发现或将重塑信息检索的生态和游戏规则。

LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

论文地址：https://arxiv.org/abs/2310.20501

随着ChatGPT等大型语言模型（LLM）的出现，人工智能生成内容（AIGC）领域迎来了繁荣的新时代。LLM以其在规模上自动生成类似人类文本的显著能力，使互联网充斥着前所未有数量的AIGC内容。大量涌入的LLM生成内容从根本上改变了数字生态系统，挑战了互联网上内容创作、传播和信息访问的传统范式。

特别是对于信息检索（IR）领域，在LLM广泛出现之前的时代，IR系统主要围绕从人类编写的语料库中检索相关文档，而随着LLM显著推动AIGC的蓬勃发展，IR系统的语料库现在逐渐包括人类编写和LLM生成的文本，如下图所示。因此，这一范式转变引发了一个基本的研究问题：LLM生成内容的流行对IR系统有什么影响？更具体的说，研究者们想探讨现有的检索模型是否倾向于将LLM生成的文本排序靠前，即使其和人类写的文本传达着相似的语义信息。

构建LLM时代的IR评估基准

由于现有的IR数据集都是基于human-written corpus的，目前还没有同时包含human-written content和LLM-generated content的IR数据集。因此，研究者们首先尝试构建了一个合适的评估环境来评估现有的IR模型在LLM时代的表现。

构建这样一个评估环境有两个重要原则：（1）要能够区分corpus中的human-written content和LLM-generated content（2）对于两部分数据，我们都够获取对应的相关性标签。

研究者们提出了一种很自然且巧妙的构建评估环境的方法，他们以human-written corpus作为种子数据，利用LLM对于每一条数据进行改写，得到对应的LLM-generated corpus，具体流程如下图所示。通过这种方式，可以控制使得生成文档和原始人写的文档具有相似的语义信息，从而对于同样的query，他们应该具有相同的相关性标签。同时研究者们还通过一系列的分析实验对于所构建的评估环境的质量进行了验证。通过这种方式，研究者们基于两个主流的检索数据集SciFact和NQ320K构建了两个新的评估基准用于LLM时代IR模型的评估，即SciFact+AIGC以及NQ320K+AIGC。

源偏差：神经检索模型偏向于LLM生成的文本

基于构建的这两个新的评估基准，研究者们做了大量的分析实验。为了更好的度量偏差情况，研究者们计算了在面对human-written corpus和LLM-generated corpus上的Relative Δ指标，该指标可以度量检索模型的偏向情况。当Relative Δ>0的时候，检索模型偏向于将human-written corpus排在前面，而当Relative Δ<0的时候，检索模型偏向于将LLM-generated corpus排在前面。

如下表格的实验结果表明，神经检索器对于LLM生成的文本存在明显的偏见，即将LLM生成的文本排在更高的位置，研究者们称其为"源偏差"（Source Bias）。同时可以看到在Top1的结果上这种偏见最为明显，而Top1的文档往往在实际结果中是最重要的。

上述实验揭示了了第一阶段的神经检索器对于LLM生成的文档有源偏差，研究者们进一步探索了第二阶段的重排模型，同样也存在源偏差的问题，并且更加严重，结果如下面的两个表所示。

源偏差产生的原因分析

在揭示了神经检索模型存在源偏差后，研究者们进一步分析了源偏差产生的原因。研究者们从压缩的角度进行了解释。他们分析了human-written corpus和LLM-generated corpus两种不同来源的语料上的奇异值，发现LLM-generated corpus上头部的奇异值更高，尾部的奇异值更低。这表明LLM生成的文本通常保持更为集中的语义，噪声较少，使其更易于进行精确的语义匹配，如下图所示。

解决源偏差的方法：去偏约束

进一步地，为了更好地检验基于预训练语言模型的神经检索模型是否能更好地理解LLM生成的文本，研究者们进行了深入的困惑度分析。他们的实验和理论分析表明，LLM生成的文本始终具有较低的困惑度分数。这些观察结果证实了LLM生成的文本更容易被神经检索模型理解，从而导致源偏差。

进一步的，研究者们进一步提出了一个简单但有效的纠偏方法。具体而言，他们在原有的检索模型的目标函数上额外添加了一个去偏的惩罚项：

该惩罚项通过显式的惩罚具有LLM生成的文档比对应的人类写的文档的预测得分的样本来使得检索模型专注于建模语义相关性，而不是神经检索器和LLM生成内容之间固有的捷径，从而减轻源偏差。实验结果表明该去偏方法可以有效地在不同程度上缓解源偏差，如下图所示：

当然，研究者们也提到，至于是以人为本，结果应该偏向于人类写的文本，还是应该人和机器写的文本应该平等对待，哪种方式对于信息检索的生态和长期发展更有利，仍然是一个开放性的问题，需要整个社区未来进一步共同探讨。

源偏差的潜在影响

最后，研究者们还讨论了源偏差可能带来的影响：

● 随着LLM生成内容的越来越充斥着互联网上的各个角落，源偏差可能导致人类写的文章更难被检索出来，进而会影响信息检索的生态。

● LLM生成内容中常常夹杂着错误信息，源偏差可能会放大这些错误信息在互联网上的传播，进而可能引发重大社会问题。

● 源偏差可能被恶意利用来攻击现有的检索和排序算法，就像当年对于PageRank算法的Spam Link攻击一样。

因此，研究者也希望上述的研究工作能够引起整个IR社区的关注，号召大家一起来关注和解决源偏见的问题，使得IR生态可持续发展。

AI-Generated Images Introduce Invisible Relevance Bias to Text-Image Retrieval

论文地址：https://arxiv.org/abs/2311.14084

这篇文章将source bias在文本模态上的研究扩展到文本-图像模态上，具体而言，本文研究了当用于检索的数据库索引了大量人工智能生成的图片时，其会对文本到图像的跨模态搜索的排序结果造成什么样的影响。

数据集构造

为了研究这个问题，首先，本文基于Flicker30k和MSCOCO构造了一个合理的由真实图像和生成图像组成的检索数据库。在构造过程中，本文通过Diffusion Model利用图像过采样的方法为每个真实图像生成其对应的生成图像，生成过程中通过CLIP模型的额外约束来保证每个生成的图像和真实的图像具有足够相似的语义，从而尽量避免由于语义的差异而对评估引入额外的偏差。本文也提供了一些实验和人工评估的结果来进一步验证所构造的真实-生成图片混合检索数据库的合理性。

跨模态检索器更喜欢生成的图片

在所构造的混合检索数据库上，本文对一些主流的文本-图像跨模态检索模型进行了评估，这些模型即包括需要从头训练的模型如VSE，NAAF，也包括一些已经在海量文本-图像对上预训练过的模型，如BEIT-3，此外，从模型结构上，评估包含了基于表示的Dual-Encoder和基于交互的Fusion-Encoder，评估结果如下图所示：

可以看到，大部分文本-图像跨模态检索模型在真实-生成图片混合检索数据库上表现出了排序偏差（Relative Δ<0）. 检索模型给了生成的图片相较于真实图片更高的排序位置。

混入了生成图片的训练会加重偏差

本文进一步研究了当生成的图片被混入文本-图像跨模态检索模型的训练时，这样训练出的模型会表现出怎样的偏差，实验结果表明，随着训练集中包含的生成图片的比例增加，所训练得到的模型将变得越来越喜欢生成图片，生成图相较于真实图像的排序偏差变得越来越严重:

以上两个实验揭示了一个恶性的循环，即：检索模型对生成图像的偏好使得生成的图像更有可能从海量数据中暴露出来，这使得它们更有可能被混入后续检索模型的训练中，这种训练使得生成图像相较于真实图像的排序偏差越来越严重，未来的文本-图像检索结果可能被人工智能生成的图像所包围！

去偏训练

为了缓解以上偏差，本文提出了一种通过衡量和缩小训练过程中检索器对生成图片的偏好程度来进行去偏训练，其优化目标为：

本文通过相应的实验来验证了去偏训练方法的有效性：

导致偏差的原因分析

此外，本文还通过所训练的去偏模型来反向探索了可能导致排序偏差产生的原因，即：人工智能生成的图像会使得基于神经网络的图像编码器在对该图像的表示中嵌入额外的信息，这种额外的信息存在一下三个特点：

1. 这些信息并不能以可见的方式从视觉语义上表达出来，而仅仅能够被基于神经网络的编码器编码而得。

2. 这些信息能够放大图像表示和文本表示之间相似的部分，从而得到更高的排序分数。

3. 这些信息在不同的语义的生成图像之间存在一定的一致性。

本文对以上三个特点通过实验进行了相应的支撑。

这两项工作也在Reddit上引发了关注和讨论：https://www.reddit.com/r/MachineLearning/comments/17l88lw/r_llms_may_dominate_information_access_neural/

https://www.reddit.com/r/MachineLearning/comments/1853e5y/r_aigenerated_images_introduce_invisible/

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

继续阅读

阅读原文

搜索引擎对AIGC更加偏爱！AIGC会淹没UGC吗？