今日arXiv最热大模型论文：图灵测试中，GPT-4仍不及人类！

夕小瑶科技说原创

作者 | Axe_越

你跟分清智能和人类吗？

2015年，在由香港大学主办，以创新创业为主题的Dream Catchers论坛上，腾讯创始人马化腾透露，在创业早期为留住用户，他曾亲自下场假扮女孩子陪用户聊天。

而今天，随着以ChatGPT为代表的人工智能技术井喷，各种定制化聊天场景、角色层出不穷。我们不光要“防备”对面卿卿我我的“小姐姐”实际是个八尺大汉，甚至还要做好心理准备，因为对面和自己难舍难分的“另一半”可能都不是个“人类”。

论文标题：

People cannot distinguish GPT-4 from a human in a Turing test

论文链接：

https://arxiv.org/pdf/2405.08007.pdf

图灵测试

图灵测试最初由英国数学家和逻辑学家艾伦·图灵在1950年提出，旨在回答“机器能思考吗？”这一问题。

图灵设计了一种实验，即所谓的“模仿游戏”，其中一名人类讯问者以文本方式与另一名人类和一台机器进行交流，而讯问者不知道他是在与人还是机器交谈。如果讯问者无法可靠地区分出谁是机器，那么机器就被认为通过了图灵测试。图灵的这一提议不仅挑战了对智能的传统看法，也引发了关于机器智能的广泛讨论和研究。

下图是人类讯问者（绿色）和被讯问者（灰色）之间的对话精选示例。这四个对话中有一个被讯问者是人类，其余都是AI（试试能不能分辨出哪个是人类，答案在文末）

尽管图灵测试在理论上具有划时代的意义，但在实际应用中却面临诸多挑战。早期的实验如ELIZA程序表明，即使是简单的模式匹配技术也能在一定程度上“欺骗”人类，使人们误以为自己在与另一个人交谈。然而，这种类型的交互并没有真正展示出深层的语言理解或推理能力。

随着时间的推移，更复杂的人工智能系统如GPT-3.5和GPT-4被开发出来，它们在语言生成和理解方面的能力大大超过了早期的系统。最近的研究显示，GPT-4在图灵测试中的表现已经非常接近人类，这标志着人工智能在模仿人类交流方面取得了显著进步。

实验设置

测试系统

在本文的图灵测试实验中，研究人员比较了三种不同的人工智能系统：ELIZA、GPT-3.5和GPT-4。ELIZA是一个基于简单规则的聊天机器人，而GPT-3.5和GPT-4则是基于大语言模型（LLM）的先进AI系统。这些系统通过模拟人类的语言使用模式，试图在与人类讯问者的交流中不被识别出来。

实验方法

实验采用随机控制的双盲设计，共计500名参与者通过一个消息应用与一个匿名的对话者进行五分钟的文本交流。每位参与者在对话结束时需要判断对方是人还是AI，并给出自己的判断理由和信心评分。

其中，双边参与者（讯问者和被讯问者）通过一个类似常规短信应用的界面进行交流。讯问者首先发送消息，双方交替发送，每条消息限制在一定的字符数内。为了模拟真实的交流延迟，AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏，增加实验的现实感。

实验结果

实验结果显示，GPT-4对图灵测试的通过率为54%，超过了GPT-3.5的50%和ELIZA的22%，但仍低于真人的67%。这些数据表明，在模拟的图灵测试中，尽管GPT-4的表现接近人类，但仍有辨识上的差距。

与直觉相反的是，实验表明GPT-4与GPT-3.5在辨识度上并没有显著差异。此外，那些声称自己对LLM的工作方式更了解的参与者，在识别LLM方面并没有表现出更明显的优势。

参与者判断依据

为深入了解影响讯问者判断被询问者是否为AI的策略和因素，本文对讯问者所使用的策略及其做出判断的原因进行了分类。调查发现，36%的讯问者与被讯问者进行闲聊，询问个人细节或他们的日常活动。排名第二的策略是社交和情感（25%），例如询问证人的意见、经历并分析判断它们的幽默感；第三是知识和推理（13%），包括数学、逻辑和常识问题。

为评估每种策略的有效性，本文统计了各个策略的平均准确率。当讯问者询问人类经验（75%）、逻辑和数学（78%），或指控被讯问者是人工智能（80%）时，更有可能得到相对准确的判断，尽管后者可能是建立在讯问者已经有了一定判断的基础上。

与传统智能概念（如知识和推理）有所不同，讯问者最常见的决策理由与语言风格（43%，如拼写、语法、大小写是否正确，语气是否恰当）和社会情感因素（24%，如语言风格、幽默感或个性是否更贴近人类）有关；而知识推理仅占到10%（对方知道太多或太少）。

分析和讨论

GPT-4是否通过了图灵测试？

本文探讨了如何判断一个系统是否通过了图灵测试。虽然图灵在其1950年的论文中预测，到世纪末，机器将能够模仿人类行为到足以让讯问者在五分钟的询问后，正确识别AI的几率不超过70%，但这个30%的通过率标准似乎有些武断。本文认为50%的基线更合理，因为它表明讯问者在识别AI方面并不比随机猜测做得更好。

通过与ELIZA基线的比较，本文认为GPT-4通过了这个版本的图灵测试。GPT-4被判断为人类的平均置信度为73%，也表明了参与者并非随机猜测。

图灵测试度量的是什么

图灵最初设想的模仿游戏是作为智能的一种衡量。然而，对于图灵测试是否能够真正测量智能，学界存在争议。一些人认为图灵测试太简单了，因为人类倾向于拟人化，可能会被不智能的系统所欺骗。

本文也指出，尽管图灵测试可能不提供是否智能的必要或充分证据，但它提供的证据可以与其他评估方法相辅相成。图灵测试的互动性、对抗性和广泛的范围是其优势。

伪装的机器人

实验结果表明，参与者在五分钟的对话后无法比随机猜测更好地识别GPT-4，这表明当前的AI系统有能力欺骗人们相信它们是人类。这在更自然的情境中可能更具有潜在的欺骗性，因为在实验之外，人们可能并不会警惕对方是AI或专注于检测它。

缓解欺骗的方法

本文探讨了可能有助于缓解欺骗的方法。他们发现，讯问者在提逻辑推理、当前事件和人类体验相关问题时更有可能做出准确的判断，尽管这只是来自于相关性统计的结果。

本文还研究了讯问者判断的准确度与人口统计特征之间的相关性，以了解可能导致正确判断的因素。然而，作者发现对LLM的了解或与聊天机器人的互动频率，并没有能显著提高准确率。相反，年龄与准确性呈现负相关性，这可能表明年轻人对新技术的接触更多，而更不容易被欺骗。

结论与展望

本文总结了GPT-4在图灵测试中的表现，分析了图灵测试的意义，以及当前AI系统可能对社会产生的影响。尽管图灵测试有其局限性，但这项研究提供了对当前AI系统欺骗能力的实际评估。

同时，作者建议未来的工作可以通过训练方式来直接测试讯问者的知识对准确度的影响，并持续追踪人类与AI技术的关系，因为哪怕就在我们码字的时候，AI仍然在不断进步迭代中。

结语

大家还记得前面的判断题吧，

现在公布答案：B，只有B的被讯问者是人类。

再看看这组图，不知道大家有选对么~

继续阅读

阅读原文