能否在追问中坚持判断?揭秘大语言模型的判断一致性挑战
©PaperWeekly 原创 · 作者 | 谢淇名
单位 | 南京理工大学
研究方向 | 大语言模型
多轮对话中大语言模型在做出正确判断后,如果面对追问中的质疑、否定、误导等干扰它还能坚持先前的正确判断吗?
最近来自南京理工大学(NJUST)的研究者们发现大语言模型(LLMs)在面对追问时经常会在其判断上动摇,即使原始判断是正确的。这种判断的不一致性为生成可靠回应和建立用户信任带来了重大挑战。
论文标题:
Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
https://arxiv.org/abs/2310.02174
https://github.com/NUSTM/LLMs-Waver-In-Judgements
https://huggingface.co/datasets/NUSTM/judgement-consistency-preference-data
生成式对话大型语言模型(LLMs)如 ChatGPT,被认为是最新的技术突破,已逐步融入人们的日常生活并应用于各个领域。尽管它们在生成对用户询问的相关回应方面具有优越能力,研究者们发现,当用户继续与模型对话并对它的判断表示怀疑或提出不同意见时,它们往往开始在判断上出现动摇。这导致模型的回应与之前的发生显著偏离,即使模型初始的判断是准确的。
研究者们将此问题称为模型的“判断一致性问题”,它涉及到模型在具有固定答案的客观问题上的判断摇摆。这个问题引发了对这些 LLMs 驱动的应用的安全性、可靠性和信任度的关注。
(2)如何通过技术手段缓解这个问题,无论是对于开源还是闭源模型。
针对第一个挑战,研究者们设计了一个追问机制(Follow-up Questioning Mechanism)以及两个指标(M. 和 M. Rate),以系统地评估对话式 LLMs 的判断一致性。
全面评估 & 深入分析
受到教育学中“提问策略”理论的启发,研究者们设计了一个追问机制,如下图所示。这一思想源于教学过程,教师通过在学生回应后增加质疑或误导性的提示来延伸对话,旨在确定他们对知识理解的深度。
具体来说,研究者们为追问机制引入三类追问:封闭性、开放性和引导性问题,并将它们组织成两种形式:直接式和渐进式。在初始问答中模型给出正确回应后,直接式使用三类追问中的任意一种进行后续追问,类似于教师可能会在学生给出正确答案后,通过简单的质疑、否定或提出不同意见来测试学生对自己的答案是否坚定。
相比之下,渐进式则是依次使用上述三类问题,类似于教师更有策略地追问以验证学生的正确回应是真正掌握知识的表现还是偶然。
此外,研究者们分别从不同的追问提示,采样温度,不同追问的语气强弱等角度进行了全面的消融研究,并进行了细致的错误分析以验证这一问题存在的普遍性。下图展示了模型面对不同的追问提示时判断一致性的变化。
具体结果可见下图,实验结果表明 Unwavering-FQ框架可以将 Vicuna 对最初正确判断的修改率平均降低 32%,这表明其在判断一致性和可靠性方面有显著的提升。此外,研究者们在 MT-Bench 基准上评估发现,该框架不仅没有损害还能提高模型的通用能力,经过 SFT 和 DPO 训练后模型的 MT-Bench score 从 6.17 提升到 6.40。这些结果肯定了该框架的有效性和适用性。
如想进一步了解大语言模型在追问下的判断一致性评估结果、深入分析和缓解方法的设计细节,欢迎阅读原论文。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
关键词
语言模型
能力
结果
问题
模型在
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。