深度学习自然语言处理 原创
作者:wkk
近日Google Deep Mind联合University of Illinois at Urbana-Champaign针对LLMs无法自我纠正推理的现象进行了一系列研究,并提出了未来研究和实际应用的建议。
论文:Can LLMs Self-Correct Their Reasoning?

地址:https://browse.arxiv.org/abs/2310.01798
进NLP群—>加入NLP交流群

简介

大语言模型已经成为一项突破性的技术,在各种应用程序中具有杰出的文本生成能力。尽管如此,人其生成内容的准确性和适当性仍有待提高。有研究人员提出自我纠正作为解决这些问题的办法。基于此,本文批判性地研究了自我纠正在LLM中的作用,揭示了其真正的潜力和局限性。本文研究的核心是intrinsic self-correction(内在自我纠正),即LLM试图仅根据其内在能力纠正其初始反应,而不依赖外部反馈。研究表明,LLM在没有外部反馈的情况下很难自我纠正,甚至,其表现可能在自我纠正出现下降。

LLMs能自我纠正推理吗?

推理作为人类认知的基础;是我们理解世界、推理、决策和解决问题的机制。因此LLM要成为真正有效和可靠的工具,尤其是在决策、教育或医疗保健等关键应用中,它们必须表现出强大的推理能力。考虑到这一点,本文将调查集中在一个关键问题上:大型语言模型能否自我纠正其推理?为了解决这个问题,本文深入研究现有的研究,进行严格的实验,并进行全面的分析。

self-correction with ORACLE反馈

使用标签来指导LLMs的self-correction过程,来检验它们在提高LLM在推理任务中的表现方面的有效性。

实验设置

  • 数据集:
    1. GSM8K:包含1319个不同语言的小学数学单词问题的数据集
    2. CommonSenseQA:包含一系列测试常识推理的选择题数据集
    3. HotpotQA:开放域多跳问答数据集
  • Prompts:采用三步提示策略进行自我校正
    1. 提示模型执行初始生成
    2. 提示模型回顾之前的生成并产生反馈
    3. 提示模型再次用反馈回答原始问题
  • LLMs:测试是在GPT-3.5-Turbo上进行的,本文选择gpt-3.5-turbo-0613。此外本文还对GPT-4进行了测试,旨在测试OpenAI模型的最新、最强大迭代的自校正能力。对于GPT-3.5,使用前面提到的完整评估集。对于GPT-4,为了降低成本,为每个数据集随机抽取了200个问题(HotpotQA为100个)进行测试。
  • 实验结果:下表展示了结果。观察到显著的性能改进。

思考

在现实的环境中,例如当打算使用LLM来解决数学问题时,正确的答案对我们来说是未知的。因此,性能的提高需要更加仔细的考虑。
为了证实这一观点,本文设计了一个基于随机猜测的基线。在这个基线中,继续使用正确的标签来确定何时停止;然而,纠正措施不是由LLM采取的,而是从剩余选项的随机猜测中得出的。
具体地,CommonSenseQA是一个多项选择题数据集,为每个问题提供五个候选选项。如果第k轮中的生成精度表示为x,则后续生成的预期精度变为x+(1−x)/(5−k)。下表展示了该随机基线的结果。2轮后,其性能与自校正不相上下,甚至优于自校正,4轮后,它达到了100%的准确率。
尽管如此,使用标签所获得的结果仍然可能起到预言家的作用,可以判断答案的正确性。在代码生成等任务中,这是可行的。然而,对于推理任务,比如解决数学问题,这种设置似乎违背直觉。如果已经掌握了基本事实,那么似乎没有什么理由部署LLM来解决问题。然而,这种设置可以在目标是理解推理过程的场景中找到相关性——在这些场景中,答案可能是已知的,但希望解读详细的推理或探索不同的解决方案。

Intrinsic self-correction

针对思考中的内容,LLM可以自我纠正其推理的想法到目前为止还没有得到证据的支持,接下来本文将重点转向内在自我纠正的结果。
下表展示了模型调用的准确性和数量。观察到,在自我校正后,模型在所有基准上的性能都有所下降。

性能下降思考

实证研究表明:上图1总结了使用GPT-3.5进行两轮自我更正后答案变化的结果,上图2中有两个示例。对于GSM8K,74.7%的时间,该模型保留了最初的答案。在剩下的实例中,模型更有可能将正确答案修改为错误答案,而不是将错误答案修改为正确答案。对于CommonSenseQA,GPT-3.5改变其答案的可能性更大。
造成这种情况的主要原因是CommonSenseQA中的错误答案选项通常与问题有一定的相关性,使用自校正提示可能会使模型偏向于选择另一个选项。
直观的解释:如果模型与精心设计的初始提示很好地对齐并配对,那么在给定提示条件和特定解码算法的情况下,初始响应应该已经是最优的。引入反馈可以被视为添加了一个额外的提示,可能会使模型偏向于生成针对这种组合输入的响应。在内在的自我纠正设置的推理任务中,这种补充提示可能不会为回答问题提供任何额外的优势。事实上,它甚至可能使模型偏离对初始提示的最佳响应,从而导致性能下降。
通过使用不同的Prompts进行实验,结果表明性能仍没有提升。

多主体辩论与自我认同

有研究表明,LLM自我纠正答案的另一种潜在方法是允许模型通过多次模型调用进行批评和辩论。
本文采用其他研究人员的方法(包括相同的Prompts)在GSM8K上测试性能。唯一的区别是,为了减少结果方差,本文在GSM8K的完整测试集上进行了测试。作为参考,本文还报告了自洽性的结果,该结果提示模型生成多个响应,并进行多数投票以选择最终答案。
上表展示了结果。表明,与标准提示相比,多智能体辩论和自洽都有显著的改进。然而,当将多智能体辩论与自一致性进行比较时,观察到,在相同数量的智能体的情况下,多智能体的性能仅略好于自一致性。此外,对于具有同等数量回答的自洽性,多主体辩论显著不如使用多数投票的简单自洽性。

总结

本文的研究表明,LLMs还没有能够自我纠正推理。这意味着期望这些模型固有地识别和纠正它们的不准确性可能过于乐观,至少与当前技术状态有关。更广泛地说,这强调了在实际应用中部署LLMs时正在进行的改进和多方面的方法的必要性。鉴于这些发现,研究人员和从业者必须以辨别视角接近自我纠正的概念,承认其潜力并识别其边界。通过这样做,可以更好地装备这种技术来解决LLMs的局限性,转向它们的演变以提高准确性和可靠性。

进NLP群—>加入NLP交流群
继续阅读
阅读原文