拷打大模型！首个基于弱智吧贴文的大模型谬误理解评测基准

论文题目：

When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models

论文链接：

https://arxiv.org/abs/2402.11100

数据及代码链接：

https://github.com/THUKElab/FLUB

研究动机

大语言模型（LLM）已经显示出理解人类语言的强大能力，包括信息提取、复杂推理等。研究人员已经构建了许多基准来测试 LLM 在各个方面的能力。通过使用收集的问题与 LLM 互动，研究人员可以分析 LLM 的行为，以比较不同 LLM 的性能，并研究如何进一步改进 LLM。

尽管许多 LLM 基准如同雨后春笋般涌现，但我们认为现有的基准在某些方面仍然还不足以真正衡量 LLM 的类人智能。特别是，考虑到几乎所有的 LLM 都是在“干净”和“正确”的语料库上训练的，我们仍然想知道 LLM 是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题（Cunning Questions）。

因此，我们构建了首个基于弱智吧贴文的大模型评测基准（FLUB）来挑战 LLM 的谬误理解能力。

如上图所示，从这些案例中，我们直接感受到 LLM 和人类在面对狡猾问题时的不同行为。在第一个例子中，LLM 忽略了“莲藕本身结构上有很多洞”的常识，陷入了狡猾问题的陷阱，错误地判断莲藕上的洞是由虫害引起的。在第二个例子中，LLM 没有感知到“将钱存入随机 ATM 不会产生问题”的逻辑，因此给出了一个看似合理但荒谬可笑的答案。

事实上，这些狡猾的问题对于人类的智力来说都是非常容易理解的。因此，构建一个由狡猾问题组成的基准来评估 LLM 的谬误理解能力，从而促进 LLM 谬误理解能力的提高，是非常紧迫和有意义的。

受上述动机的启发，我们从中国著名的在线论坛“弱智吧”收集了真实的狡猾问题作为原始数据。这个论坛因其狡猾和不合理的帖子而广受欢迎，这些帖子通常对人类来说很容易理解，但对 LLM 来说很有挑战性。本论坛所包含的帖子的特征与我们的研究动机一致，因此选择它作为数据源很好地支持了 FLUB 对 LLM 的谬论理解能力的评估。

经过对题型的数据清理和标注，FLUB 共有 8 种细粒度的狡猾问题，FLUB 中的大多数题型都属于错误推理和文字游戏两类谬论。此外，我们还在 FLUB 中为每个问题手动注释了一个正确答案（即问题的解释）和三个令人困惑的错误答案，具体我们为 FLUB 提供的人工标注信息如下图所示。

基于我们构建的 FLUB 及其标注信息，我们设计了三个难度递增的任务来测试 LLM 是否能够理解谬误文本并解决狡猾问题。具体来说：

1. 答案选择（Answer Selection）：要求模型从 FLUB 为每个输入问题提供的四个答案中选择正确的答案；

2. 问题类型分类（Question Type Classification）：给定一个狡猾问题作为输入，我们希望模型直接识别该问题的谬误类型；

3. 问题解释（Question Explanation）：我们希望模型看到一个狡猾的问题像人类一样，智能地为这个问题生成正确的解释，而不会落入陷阱。

我们选择了具有代表性的先进 LLM 在 FLUB 上进行广泛实验。我们的实证研究表明：

1. LLM 在狡猾问题中感知谬误类型的能力非常差；

2. 对于特定任务，参数大小较大的 LLM 并不总是性能更好；

3. 答案选择任务和问题解释任务之间有着密切的关系，它们之间的相互作用对于促进对 LLM 中谬误的理解至关重要；

4. 在 FLUB 上，广泛使用的思维链和上下文学习方法有时会失效，这意味着对于狡猾问题而言，也许需要开发新的思维链和上下文学习方法以激发大模型的谬误理解能力。

数据集

FLUB 是首个用于大模型谬误理解能力评估的基准，具有精细的人工标注和校准（标注信息前文已经描述，在此不再赘述，关于数据集的人工标注过程和细节可以参考原始论文 https://arxiv.org/abs/2402.11100）。FLUB 由弱智吧收集的 844 个贴文组成，共有 8 种细粒度的狡猾问题，具体分类如下图所示：

FLUB 中的大多数数据属于推理错误和文字游戏类型。这是因为这两类问题广泛出现在以挑战人类智慧为目的的“弱智吧”论坛中。大量涉及推理错误和文字游戏的狡猾问题确保了 FLUB 足够具有挑战性。

此外，我们观察到一些类型的问题相对罕见，例如语音错误。事实上，这是因为我们的数据完全都是网民精心构建的。由语音错误引起的狡猾问题在现实世界中确实很少见。从另一个角度来看，数据分布也反映了 FLUB 是真实的，并且接近人类生活，因此它可以更好地衡量人类与 LLM 之间的智力差距。

基准设置

3.1 任务总览

为了评估 LLM 的谬误理解能力，我们在 FLUB 上设计了三个基准任务：答案选择、问题类型分类和问题解释。对于每项任务，我们都会设计 prompts 来引导 LLM 获得预期输出。

特别是，对于任务一和任务二，为了激发 LLM 的推理能力，我们结合思维链来设计提示，如下图所示。对于任务三，我们认为任务目标本身足够直接并且对问题解释的过程本身就包含思维推理的思想，因此不适合再应用思维链。

3.2 任务设计

下面我们介绍三个基准任务的详细信息：

任务一：答案选择，我们要求 LLM 从每个问题的四个给定候选解释中选择出正确的解释。这项任务的设计动机是测试 LLM 在给定狡猾问题的背景下看到正确和错误的答案时是否能够区分是非。
任务二：问题类型分类，问题类型分类任务专门设计用于评估 LLM 是否可以基于当前问题中隐藏的非理性方面，将狡猾问题分类为与人类直觉一致的类别。在任务评估过程中，所有问题类型都将与提示相结合，以允许 LLM 直接选择正确类型的狡猾问题。我们认为，LLM 首先理解谬误的概念或类型是他们处理好狡猾问题的不可绕过的先决条件。
任务三：问题解释，为了进一步测试 LLM 是否真正理解给定的问题，我们设计了解释任务。在该任务中，设计的提示和问题直接输入 LLM，使其能够“阅读”输入的问题并生成相应的解释。生成的解释将与正确的解释进行比较，以便进行评估。如果 LLM 能够产生正确的解释，我们相信它们有能力识别狡猾问题的陷阱，并且已经接近人类的智慧。

3.3 基准评估指标

对于任务一和任务二，我们自动化地直接计算准确率，基于大模型的选择和分类结果。

为了评估任务三中 LLM 生成解释的质量，我们使用自动评估和人工评估分别对其解释进行评分。

对于自动化评估，受 MT Bench 的启发，我们构建了包含任务说明、问题、LLM 解释和参考答案的提示。这些提示被输入 GPT-4，GPT-4 的任务是打出从 1 到 10 的分数。

对于人工评估，我们雇佣了 3 名评估注释员对 LLM 的解释进行评分，得分范围为 {1,2,3,4,5}。为了确保对 LLM 的解释进行公平评估，我们为注释者制定了一套评分指南，包括每个评分的定义和相关示例（具体详见原始论文附录部分）。

实验结果

4.1 实验设置

闭源模型我们选择了 ERNIE-Bot-3.5、ERNIE-Bot-3.5-Turbo、ERNIE-Bot-4.0、GPT-3.5-Turbo、GPT-4-Turbo。

开源模型我们选择了ChatGLM3-6B、Qwen-7B-Chat、Qwen-14B-Chat、Qwen-72B-Chat、Yi-6B-Chat、Yi-34B-Chat、Baichuan2-7B-Chat、Baichuan2-13B-Chat。

4.2 自动评估实验

对于自动评估结果，我们有如下发现：

对于不同任务的难度，正如我们所预期的，答案选择任务是最简单的，这表明LLM 在看到正确和错误的答案时应该具有一定的辨别是非的能力。然而，我们也看到所有模型在问题类型分类任务中的性能都不令人满意，准确率低于 25%。这种不足可能源于模型理解各种问题类别语义的能力有限。

对于不同参数规模的模型，总体而言，较大尺度的模型能够更好地理解狡猾的问题，这符合直观的预期。当然，也有例外。我们发现，与其他更大的模型相比，Qwen-7B-Chat 在问题类型分类任务上取得了更好的表现，这表明 Qwen-7B-Chat 的谬论类型理解能力非常有竞争力。

对于不同任务之间的联系，三个任务的不同模型之间的比较结果并不一致。然而，在答案选择任务中表现出优异性能的模型往往会产生更合理的解释。这一现象提醒我们，答案选择任务和问题解释任务之间有着密切的关系。这两个任务之间的相互作用对于提高 LLM 的谬误理解能力至关重要。

对于思维链的影响，令人惊讶的是，从结果来看，思维链并没有给 LLM 的推理能力和谬误理解能力带来质的提高。特别是对于答案选择任务，思想链甚至会产生负面影响。这一现象表明了 FLUB 的挑战性，并意味着我们需要研究除思维链之外的新策略来激发 LLM 的推理能力。

对于上下文学习的影响，我们选择了 5 个代表性的 LLM 来研究上下文学习对 LLM 的谬误理解能力的影响（结果见上图 4）。与几乎没有积极影响的思维链不同，LLM 在上下文学习中的表现基本上随着demonstrations的增加而上升。

这表明，让 LLM 看到更多的例子可以提高其对谬误的理解能力，但例子的数量必须足够大，因为我们还看到，当只添加 demonstration 时，与零样本情况相比，LLM 的性能往往会先下降。

4.3 人工评估实验

为了验证我们为任务三设计的自动 GPT-4 评估的有效性，我们从 FLUB 中随机选择了 50 个数据样本，以及 5 个高性能 LLM 的输出，供人工标注者进行人类评估，结果如下图。

从人工评估结果我们有以下发现：

自动评估和人类评估之间的总体相关系数为 0.69，表明 GPT-4 分数与人类偏好之间具有高度一致性。此外，相关结果还验证了我们为任务 3 设计的 GPT-4 分数的有效性。
在选定的五个模型中，自动评估和人工评估都显示出大致一致的排名。GPT-4-Turbo 的性能优于所有其他型号。相反，人类注释者感知到 ERNIE-Bot-4.0、Qwen-78B-Chat 和 Yi-34B-Chat 模型之间的边际性能差异。此外，在 Qwen-72B-Chat 模型的评估中出现了显著的差异，其中人类注释者的评分低于 GPT-4 的自动评估。
从人类评估的结果来看，除了 GPT-4-Turbo 可以超过 6 分的及格分数外，其他 LLM 的表现仍然不理想，这表明社区仍需进一步研究如何提高 LLM 的谬误理解能力。

4.4 案例分析

上图中展示了有趣的案例研究：

从第一个案例中，我们看到 GPT-4-Turbo 给出了相对完美的解释，而 ERNIE-Bot-4.0 的答案虽然最终结论是正确的，但并没有清楚地解释因果关系。根据 ERNIE-Bot-4.0 的解释，如果是鸡蛋的话，鸡蛋干加入水，它就可以复原，这显然是逻辑错误的。
在第二种更困难的情况下，ERNIE-Bot-4.0 和 GPT-4-Turbo 在面临这个棘手的问题时都失败了。具体来说，ERNIE-Bot-4.0 掉入了这个问题的陷阱，没有明确表示“把头放在岸边”是不可能的操作，而是给出了令人目瞪口呆的解释。相比之下，GPT-4-Turbo 的性能略好，但它根本没有意识到问题中的陷阱，从而得出了一个答非所问的答案。