华为查询建议新范式MMQS入选WWW 2024，解锁基于人类反馈的多模态查询建议

机器之心专栏

机器之心编辑部

在信息时代，搜索引擎成为人们检索信息不可或缺的工具。然而传统的基于关键词的搜索方法要求用户准确表达搜索需求，因此有一定挑战。为了改善用户体验，查询建议系统崭露头角。这些系统通过分析用户当前的查询输入，生成相关的建议，减轻用户的搜索负担。文本查询建议（TQS）和视觉查询建议（VQS）是两种已经深入研究的查询建议系统。TQS 根据用户当前的查询生成一系列关键词，辅助用户更清晰地表达搜索意图。而 VQS 通过将视觉示例与建议一起呈现，提高了用户理解上下文的能力。

然而这些系统的局限在于主要依赖用户的文本输入，而图像中蕴含丰富信息。在某些情况下，用户可能更愿意通过拍摄照片进行搜索，而不是通过文字表述清楚。例如，假设用户在骑自行车时自行车出了故障。在这种情况下，用户直觉的搜索方式可能是迅速拍摄一张自行车的照片以查询解决方案，而不是依赖 TQS 或 VQS 用文本描述当前的问题。如果用户在搜索框中键入 “自行车”，提供的建议可能是 “自行车扑克”、“自行车店” 和 “自行车泵”，这些都与用户意图不相关。

此外，为了进一步提升查询建议的质量，系统不仅应该提供修理自行车的指导，还应该提供其他有用信息，比如附近的自行车修理点以及自行车频繁故障的可能原因。这些多样的选择允许用户有效地探索他们可能需要的信息。

为了解决这个问题，华为中央软件院新加坡搜索技术团队在该文中提出了一个新的多模态查询范式 MMQS，允许用户通过图像，获得多模态的查询建议，提高了搜索的灵活性和准确性。目前该工作已被互联网领域顶会 WWW 2024 接收。

论文链接：https://arxiv.org/abs/2402.04867

多模态查询建议 MMQS

在这项工作中，作者以用户查询图像为输入，并生成查询建议以响应用户的搜索意图。鉴于查询建议旨在帮助用户启动搜索引擎，MMQS 的设计聚焦于两个关键特性。

意向性：MMQS 的主要目标是有效捕捉用户的搜索意图，推断出难以用言语表达的隐含信息需求。
多样性：MMQS 生成涵盖查询图像不同方面的查询建议，从而扩展搜索空间。

挑战与创新点剖析

MMQS 问题的构建引入了一系列需要创新解决方案的挑战。其中的挑战问题包括：

1. 数据收集：整合包含文本和视觉信息的多模态数据带来了独特的数据准备挑战，这涉及生成图像 - 建议对，这在许多公开可用的图像 - 文本数据集（例如，COCO Captions 或 Flickr30k Entities）中并不常见。此外，标注用户意图可能是耗时的，缺乏清晰的指导方针。为了确保 MMQS 的成功，对于数据收集、自动配对和可靠注释的有效策略变得至关重要。

2. 意向性和多样性的捕捉：从查询图像中推断用户意图并生成多样化的建议是一项复杂的任务。这需要理解视觉上下文和图像与文本建议之间的关联。在生成的建议中同时实现意向性和多样性需要精心设计的技术，以与用户意图对齐并避免冗余。

针对以上问题作者提出了以下创新方案：

GPT 协助下的自动化数据采集：作者利用当前 GPT 语言生成的能力，自动化收集图像 - 建议对和基于潜在点击的用户意图注释。采用基于阈值的机制，有选择地涉及对置信度较低建议的手动工作，确保在数据标注过程中在自动化和人工输入之间取得平衡。

作者通过参数实验发现，当阈值设为 0.6 时基本能产生和人类标注数据接近的优化效果，但是极大缓解了标注工作量大约 46.9%

基于多智能体人类反馈的强化学习框架 RL4Sugg：框架内包括两个智能体协同工作：Agent-I 负责意向性，Agent-D 负责多样性。Agent-I 首先生成一组有意向的候选建议，包括专为此任务定制的 RewardNet 和 PolicyNet。RewardNet 利用多任务学习对图像 - 建议对进行对齐，并为这些对分配奖励。然后，通过人类反馈的强化学习（RLHF）对 PolicyNet 进行训练，以增强建议的意向性。Agent-D 从候选池中选择多样性建议，旨在与 Agent-I 协作，确保在端到端训练中明确优化意向性和多样性。

为什么要使用多智能体？作者在 MMQS 任务中给出了讨论为什么要同时使用 Agent-I 和 Agent-D，而不是修改 Agent-I 来处理意向性和多样性两个方面 — 在解决该研究中 MMQS 任务时需要满足两个重要的特性：意向性和多样性。特别是这两个特性呈现出一些正交关系（依据消去实验结果），同时将它们融入统一的 Agent 框架中面临挑战。

通过在表格中的实证研究结果，当专门训练 Agent-I 执行这个任务时，观察到该 Agent 倾向于生成高度有意向性但重复的建议。因此，这种方法允许 Agent 通过利用重复的捷径从 RewardNet 获得高分，导致多样性显著下降。为了克服这个局限，使用两个独立的 Agent 来处理这两个不同的特性。具体而言，Agent-I 负责优化意向性，而 Agent-D 致力于增强多样性。这种战略性的分工使得能够通过应用多智能体强化学习明确优化 MMQS 任务中的意向性和多样性，确保对该任务的更全面的解决方案。

RL4Sugg 支撑应用场景：作者在两种搜索引擎场景中探索了 RL4Sugg 的能力：（1）生成型和（2）检索型。

在（1）中，RL4Sugg 可以利用其语言生成能力，从 LLMs 中生成自然的查询建议，以响应用户在不同领域的图像查询。

在（2）中，RL4Sugg 专注于为具有较窄焦点的特定领域提供查询建议，如电子商务购物网站，其中查询建议仅限于它们的商品，并可以提前准备。它利用 PolicyNet 的两塔结构来表示图像和语言的能力。查询建议以向量表示存储在数据库中，而基于向量的检索，如 HNSW，增强了搜索效率。在推理过程中，RL4Sugg 提取用户的图像表示，并检索具有高相似性的查询建议。值得注意的是，这种方法提供了多种优势，包括高效的查询响应，通过预计算和存储查询建议在数据库中，可以提前保证这些建议的质量。

RL4Sugg 解决冷启动问题：由于 RL4Sugg 依赖于注释者的反馈来理解搜索的意向性，当学到的知识对在线用户查询不足时，RL4Sugg 可能会面临潜在的冷启动问题，即在推荐建议时缺乏足够的学到的知识。为了解决这个问题，作者采用在线学习的方法，通过不断对两个 Agent 的优化方程进行微调，利用新记录的查询图像和用户点击的建议，确保模型的策略保持最新以适应在线使用。在实验中作者验证了这种方法，结果显示用户体验提高了 8.3%，表明这一策略在实际应用中产生了积极的影响。

实验结果

生成 & 检索任务有效性测试：作者进行实验证明了在生成和检索任务方面模型的有效性。该模型在 Business 数据集上进行微调（文中报告了具体参数），并在 ImageNet 上进行了直接测试以验证其可迁移性。对于生成任务，作者在 Business 和 ImageNet 数据集上查询了 300 张图像，RL4Sugg 在 DCG 方面优于所有基线模型，表现出很强的可迁移性。最佳基线模型 Flamingo 的 DCG 为 0.73（比 RL4Sugg 低 18%）。所有模型在多样性方面表现相似，除了 BLIP-2 偶尔生成同义的查询建议，以及 LLaVA 倾向于生成较长的建议。由于查询建议基于包含必要实体和常见语法结构的查询图像，所有模型的总体多样性值并不很高。对于检索任务，RL4Sugg 在两个数据集上的 PNR 和 Recall 均优于其他两个基线模型。

Case study：作者在公开数据中展示了 RL4Sugg 图像到建议生成的零样本能力。其中选择与 Flamingo 进行比较，因为它在基线中表现最佳。可观察到查询建议涵盖了查询图像的各种意图。

在样例图中，潜在的意图可能涉及清理或整理脏冰箱的任务。值得注意的是，可观察到 RL4Sugg 在 RLHF 训练后有效地捕捉到了这一直观意图。此外，RL4Sugg 可以准确地捕捉到一个高意图的查询，如 “破碎的 iPhone 手机”。

团队介绍

该工作由华为新加坡中央软件院团队独立完成，团队以深耕 AI 基础软件作为目标，聚焦大模型基础软件技术创新研究，包括多智能体、多模态提示及检索增强生成（RAG）等前沿基础技术研究和能力构建，致力于构建基于强大算力和大模型的应用技术，以推动 AI 基础软件的发展。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

继续阅读

阅读原文