拷打大模型!首个基于弱智吧贴文的大模型谬误理解评测基准
论文链接:
数据及代码链接:
研究动机
我们选择了具有代表性的先进 LLM 在 FLUB 上进行广泛实验。我们的实证研究表明:
1. LLM 在狡猾问题中感知谬误类型的能力非常差;
2. 对于特定任务,参数大小较大的 LLM 并不总是性能更好;
3. 答案选择任务和问题解释任务之间有着密切的关系,它们之间的相互作用对于促进对 LLM 中谬误的理解至关重要;
4. 在 FLUB 上,广泛使用的思维链和上下文学习方法有时会失效,这意味着对于狡猾问题而言,也许需要开发新的思维链和上下文学习方法以激发大模型的谬误理解能力。
数据集
此外,我们观察到一些类型的问题相对罕见,例如语音错误。事实上,这是因为我们的数据完全都是网民精心构建的。由语音错误引起的狡猾问题在现实世界中确实很少见。从另一个角度来看,数据分布也反映了 FLUB 是真实的,并且接近人类生活,因此它可以更好地衡量人类与 LLM 之间的智力差距。
基准设置
3.1 任务总览
- 任务一:答案选择,我们要求 LLM 从每个问题的四个给定候选解释中选择出正确的解释。这项任务的设计动机是测试 LLM 在给定狡猾问题的背景下看到正确和错误的答案时是否能够区分是非。
- 任务二:问题类型分类,问题类型分类任务专门设计用于评估 LLM 是否可以基于当前问题中隐藏的非理性方面,将狡猾问题分类为与人类直觉一致的类别。在任务评估过程中,所有问题类型都将与提示相结合,以允许 LLM 直接选择正确类型的狡猾问题。我们认为,LLM 首先理解谬误的概念或类型是他们处理好狡猾问题的不可绕过的先决条件。
- 任务三:问题解释,为了进一步测试 LLM 是否真正理解给定的问题,我们设计了解释任务。在该任务中,设计的提示和问题直接输入 LLM,使其能够“阅读”输入的问题并生成相应的解释。生成的解释将与正确的解释进行比较,以便进行评估。如果 LLM 能够产生正确的解释,我们相信它们有能力识别狡猾问题的陷阱,并且已经接近人类的智慧。
3.3 基准评估指标
4.1 实验设置
对于自动评估结果,我们有如下发现:
对于不同任务的难度,正如我们所预期的,答案选择任务是最简单的,这表明LLM 在看到正确和错误的答案时应该具有一定的辨别是非的能力。然而,我们也看到所有模型在问题类型分类任务中的性能都不令人满意,准确率低于 25%。这种不足可能源于模型理解各种问题类别语义的能力有限。
对于不同参数规模的模型,总体而言,较大尺度的模型能够更好地理解狡猾的问题,这符合直观的预期。当然,也有例外。我们发现,与其他更大的模型相比,Qwen-7B-Chat 在问题类型分类任务上取得了更好的表现,这表明 Qwen-7B-Chat 的谬论类型理解能力非常有竞争力。
对于不同任务之间的联系,三个任务的不同模型之间的比较结果并不一致。然而,在答案选择任务中表现出优异性能的模型往往会产生更合理的解释。这一现象提醒我们,答案选择任务和问题解释任务之间有着密切的关系。这两个任务之间的相互作用对于提高 LLM 的谬误理解能力至关重要。
对于思维链的影响,令人惊讶的是,从结果来看,思维链并没有给 LLM 的推理能力和谬误理解能力带来质的提高。特别是对于答案选择任务,思想链甚至会产生负面影响。这一现象表明了 FLUB 的挑战性,并意味着我们需要研究除思维链之外的新策略来激发 LLM 的推理能力。
对于上下文学习的影响,我们选择了 5 个代表性的 LLM 来研究上下文学习对 LLM 的谬误理解能力的影响(结果见上图 4)。与几乎没有积极影响的思维链不同,LLM 在上下文学习中的表现基本上随着demonstrations的增加而上升。
这表明,让 LLM 看到更多的例子可以提高其对谬误的理解能力,但例子的数量必须足够大,因为我们还看到,当只添加 demonstration 时,与零样本情况相比,LLM 的性能往往会先下降。
4.3 人工评估实验
从人工评估结果我们有以下发现:
自动评估和人类评估之间的总体相关系数为 0.69,表明 GPT-4 分数与人类偏好之间具有高度一致性。此外,相关结果还验证了我们为任务 3 设计的 GPT-4 分数的有效性。 在选定的五个模型中,自动评估和人工评估都显示出大致一致的排名。GPT-4-Turbo 的性能优于所有其他型号。相反,人类注释者感知到 ERNIE-Bot-4.0、Qwen-78B-Chat 和 Yi-34B-Chat 模型之间的边际性能差异。此外,在 Qwen-72B-Chat 模型的评估中出现了显著的差异,其中人类注释者的评分低于 GPT-4 的自动评估。 从人类评估的结果来看,除了 GPT-4-Turbo 可以超过 6 分的及格分数外,其他 LLM 的表现仍然不理想,这表明社区仍需进一步研究如何提高 LLM 的谬误理解能力。
4.4 案例分析
上图中展示了有趣的案例研究:
- 从第一个案例中,我们看到 GPT-4-Turbo 给出了相对完美的解释,而 ERNIE-Bot-4.0 的答案虽然最终结论是正确的,但并没有清楚地解释因果关系。根据 ERNIE-Bot-4.0 的解释,如果是鸡蛋的话,鸡蛋干加入水,它就可以复原,这显然是逻辑错误的。
- 在第二种更困难的情况下,ERNIE-Bot-4.0 和 GPT-4-Turbo 在面临这个棘手的问题时都失败了。具体来说,ERNIE-Bot-4.0 掉入了这个问题的陷阱,没有明确表示“把头放在岸边”是不可能的操作,而是给出了令人目瞪口呆的解释。相比之下,GPT-4-Turbo 的性能略好,但它根本没有意识到问题中的陷阱,从而得出了一个答非所问的答案。
总结
详细的分析表明,FLUB 具有很大的挑战性和研究价值。迄今为止,大多数现有的 LLM 仍然不能很好地理解这种谬误,这导致它们远不能像人类那样容易地处理现实世界中的复杂问题。我们相信,我们提供的基准和研究方向对 LLM 社区很有价值。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。