深度学习自然语言处理 原创
作者:Winnie
当我们看到Tom在绿色柜子找巧克力棒,而我们知道它在红色柜子里,我们会建议他去红色柜子找找。这是由于我们理解Tom的目标、知道实际的物品位置、并了解他找错了方向。这种理解和反应于他人心理状态的能力被称为心智理论(Theory of Mind,ToM)。
最近,来自Google的研究者试图探究能否让大型语言模型(LLMs)也具备这种心智理论能力。为此,他们推出了一个名为Thinking for Doing(T4D)的新评估范式,目的是检测这些模型是否可以基于对他人心理状态的理解来做出适当的行动。
在这个新挑战T4D中,即使是GPT-4也只能达到50%的准确率,而真正的人类达到了超过95%的准确率。这意味着,尽管机器在模拟人类思维方面已经取得了很大的进展,但仍然存在一定的局限性。
进一步的研究揭示,机器在T4D测试中遇到的主要挑战在于如何找到正确的信息来驱动其行动决策。而当为机器提供有关推断的具体提示时,其性能可以显著提高,接近人类水平。
但问题来了,我们能否不直接为模型提供具体提示,而是教会模型更好地构建其推理过程呢?对此,研究者提出了一个新的提示框架——预见和反映(Foresee and Reflect, FaR)。这种方法旨在通过未来思考来引导模型的推理。
与此同时,研究还揭示了FaR在多种环境下的泛化能力,并与其他提示策略进行了比较,证明其在提高LLMs zero-shot性能上的有效性。
总之,今天介绍的这篇研究为我们提供了关于如何提高机器在社会推理和行动决策上的能力的深入见解。让我们一起来看看吧。
Paper:
How FaR Are Large Language Models From Agents with Theory-of-Mind?

Link:
https://browse.arxiv.org/pdf/2310.03051v1.pdf
进NLP群—>加入NLP交流群

从Theory of Mind到Think for Doing

人们在社交互动中经常根据他人的心理状态来预测和解释他人的行为,这种能力被称为心智理论 (Theory of Mind,ToM)。在经典的Sally-Anne Test中参与者需要解释一个故事。例如,Owen错误地认为西装放在柜子里。ToMi要求模型推断Owen的心智状态,预期的答案是Owen会在柜子里寻找西装。
思行合一(Think for Doing,T4D)研究转向一个稍有不同的焦点:不仅仅是理解和预测他人的心智,而是基于这些理解做出决策。通过引入一种意图,即Owen和Nathan都打算在不久的将来使用西装,来复杂化这个任务。模型被引导确定他们将通过提供关于物体位置的准确信息最大程度地协助哪个角色。因此,在T4D中,模型必须从叙述中推断:1) Owen依然错误地认为西装在橱柜里;2) 考虑到他即将对西装的需求,准确了解其位置将极大地帮助他。
研究将ToMi(大约500个故事)程序化地转换为T4D,充分利用ToMi的模板化特性。在T4D任务下,模型需在准确地洞察并理解故事中角色的心智的基础上,进一步作出行动决策。这是一个深入探讨模型是否能够理解并据此采取行动的实验——其结果能对我们在AI和社交交互应用领域的未来发展提供关键见解。

人类在T4D任务上的表现

在使用T4D评估LLMs之前,研究先测试人类的表现来验证其有效性。为此,研究随机抽取了大约80个实例,由n = 20名人类评分员进行评估。
结果强调了T4D任务的稳健性:每个实例至少获得了20名评分员中的17名的一致性。而且,超过90%的实例达到了超过95%的一致性水平(19名或所有20名评分员达成一致)。这强烈的人类一致性显示,T4D的设计自然符合人类关于决策的观点。

LLMs在T4D任务上的表现

研究人员在T4D任务上测试LLMs,并将它们的性能与我们从原始的ToMi集转换的性能进行比较。实验使用了PaLM 2、Bison和Unicorn 2、ChatGPT 和GPT-4。
研究人员专注于zero-shot性能。具体来说,他们提供答案选项,并指导模型输出一个答案选项。在表1中显示了比较LLM在ToMi和T4D-ToM上的表现的结果。他们发现PaLM 2和GPT模型在ToMi上的表现接近完美的人类得分(最佳模型GPT-4得分为93% vs 人类的100%),但当在T4D-ToM上测试时,所有模型的性能差距显著扩大(GPT-4 50% vs 人类90%)。这种差异强调了T4D对即使是最强大的现代LLM的挑战。

为什么LLMs会失败于T4D任务?

为了更好地理解为什么LLM发现T4D具有挑战性,研究通过收集和分析人类编写的理由,识别出对LLM来说似乎特别具有挑战性的明显推理维度。接下来,他们讨论了这些挑战,并通过使用oracle hints进行实验,以确定它们是否确实可以帮助模型克服这些推理障碍。
问题分解(Question Decomposition)人类经常将总体的T4D任务分解为更具体的子问题,比如"谁可能需要信息?"和"我可以提供什么信息?"。这种分解弥合了一般问题和提供的观察之间的差距。为了在模型中模拟这一点,他们添加了oracle hints,凸显出来自分解过程的具体信息。
心智推理(Theory-of-Mind Inferences)第二个主要的推理挑战是Sally-Anne测试中测试的核心推理——模型能否正确推断出Sally会在旧位置寻找物品,因为她在Anne移动物品前就离开了房间?研究通过在观察中提供预知的ToM推理来提供信息:"Sally将在[旧容器]中寻找[物品]"。
常识假设(Commonsense Assumptions)ToMi任务中固有的模糊性提出了另一个挑战。为了解决任务,模型必须假设两个容器都位于房间中,即使这在观察中从未明确提及过。研究通过在观察中明确这些假设来解决这一点。
如下图所示,提供oracle hints在识别的推理维度上产生了不同的结果。通过与物品位置相关的提示引导模型(+QD)并结合预知导出的角色信念(+ToM)显著增强了任务性能。相比之下,仅仅澄清假设(+CSA)在提高模型精度方面只有有限的效果。
这些结果还表明,LLMs在T4D上性能低下的根本原因不归因于任务设计,而归因于它们在得出正确的推断和推理上的失败。因此,造成LLMs在T4D上的挑战(但对人类来说容易)的一个关键瓶颈是在未受约束的潜在推理空间中导航,以找到使选择哪个动作意图明确的正确推断。

Forsee and Reflect (FAR)

根据以上分析,研究探索了能否辅助LLMs识别一条不需借助明确提示便能引导至正确行动选择的隐性推理路径。据他们的观察,人类能轻松地自然识别相关推理并作出决策,例如“我应该向谁提供信息?”。然而,确保LLMs执行类似的结构化推理成为他们的主要挑战。因此,为LLMs提供一个可推广的推理结构,引导模型至相关推理非常重要。
研究引入了预见与反思(Foresee and Reflect,FaR)框架。该框架为LLMs提供了一个结构化的推理范例,提示它们:1)从给定观察中推测潜在的未来事件;2)反思在实时上下文中哪些步骤最能服务于人类。正如在第2节中所讨论的,FaR的主要贡献不在于引入新的提示,而在于展示施加一个结构化框架在LLM的推理过程上的优势。
一个示例输出用GPT-4展示了FaR。
FaR的设计首先提示模型通过考虑可能发生的潜在事件来预见未来。考虑到观察结果O,FaR指导LLMs迭代描述每个角色,预测他们可能的未来行动,并指出他们可能遇到的潜在挑战。
预见到可能的未来事件之后,他们提示模型反思当前进行的行动是否能帮助应对在第一步中识别的潜在挑战。这个过程可以看作是基于可用行动选项修剪生成的潜在未来推论。总的来说,FaR帮助LLMs将关于未来的相关推论与预期的行动选择联系起来,完成一个跨越观察-推论-行动的推理链。

实验结果与分析

研究团队检查了不同的zero-shot提示方法在提高LLM在T4D上的性能上的潜力,并进行了推广测试。在实验中,考虑了以下zero-shot提示策略进行对比,每种都提供一个独特的推理结构。
  • Chain-of-Thought,CoT
  • Tree-of-Thought,ToT
  • Self-Ask
  • FaR
下图展示了4种不同的zero-shot提示方法的结果。FaR可以显著提高LLM在T4D-ToM上的性能,而其他提示方法并没有太多帮助。具体而言,FaR帮助将GPT-4的准确性从基础的50%提高到71%,同时也帮助其他所有LLM的性能提高了12%至18%之间。更强大的模型(GPT-4和PaLM2-L)更倾向于从FaR中受益。
FaR由两个主要组件组成,一个用于预见未来的事件和挑战,一个用于反思行动决策。为了研究这些组件各自的影响,实验中修改了FaR提示,隔离了每个元素进行对比。
下表使用GPT-4为两个组件展示了FaR的消减。观察发现,当没有预见和没有反思时,性能分别下降了17和12个百分点,表明它们对T4D都是至关重要的。

结语

本研究引入了T4D,用于检验模型能否将社会推理与行动结合;揭示了LLMs在T4D上的挣扎,并通过分析指出关键瓶颈在于识别隐含的推理步骤;以及设计了FaR框架,能够显著提高LLMs在T4D上的性能,且在分析和泛化测试中展现出鲁棒性。
在探索AI理解和反应于人类心智状态的道路上,这一研究提供了宝贵的洞见和工具,预示着未来AI在更为复杂社交场景中的应用潜力。

进NLP群—>加入NLP交流群
继续阅读
阅读原文