ChatGPT竟做不出小学数学题？！3 大「反常识」研究结果令人意外

大家好，我是Serena。

在 AI 每天都突飞猛进的当下，有一部分人工智能领域的专家、学者也发起了一项有趣挑战：

通过训练AI，拿到奥数最高峰——也就是国际数学奥林匹克竞赛（IMO）的金牌。

■ 挑战发起人都是机器学习领域最顶尖的人，还专门设立了一个网站：

https://imo-grand-challenge.github.io/

要知道，能拿到 IMO 的学生都代表着这一代学生里最聪明的数学大脑，也是通往数学诺贝尔奖「菲尔茨奖」的阶梯。

国外热心网友大多数认为「AI可以在2028年拿到IMO金牌」，然而挑战的发起人之一、来自开发了 ChatGPT 的OpenAI团队的Daniel Selsam谨慎地表示：

「按照现在的技术，这个挑战在当下是不可能实现的」。

怎么回事？会写诗、写论文、写代码、做PPT的AI，竟然还解不出数学难题？数学难道不是「最容易用计算机解决」的学科吗？

身为普通家长，我更关心的还有：

既然难题解不出，那些AI 能做出的基本数学题，孩子还需要花大量时间背诵、或练习基础数学题吗？

在 STEM 教育成风的今天，是不是学习编程和机器人，比学习数学更重要呢？

我做了一些研究，发现了三个关于在 AI 时代学习数学的反常识。

文章开始前，独家谷雨小会重磅来了！先跟大家预告下：

下周三，谷雨星球邀请了研究了数学12 年、学而思培优校区小学负责人、摩比思维上海分校校长、学而思教学产品负责人的星辰老师，独家做客谷雨小会，针对4-9 年级家长，聊聊——

数学分水岭的小学高年级、初中如何做，才是真正学「好」数学？以案例分析数学卡壳一般卡在什么地方？又要如何针对下药？

外面听不到的真心话，只在谷雨。小会每次只招 20 人，文末扫码抢位。

第一个反常识

AI没那么擅长数学

如果你家孩子也认为，

「学数学不用做基础练习

，反正未来由AI工具来帮忙

」

，那么下面的事实，可能要让他失望了——

对于最懂数学的人，AI是最好用的工具；

对于数学不好的人，AI会用自信满满的胡说八道来「坑」你。

■研究发现，ChatGPT可以很好地解释数学概念，却难以做对需要层层证明的奥数题

美国亚利桑那州立大学的副教授Shakarian，刚刚在2023年1月初用1000个数学问题对ChatGPT进行了测试，结果发现准确率只有60%，低于一般中学生的准确率。

另外，牛津大学机器学习研究员Simon Frieder，曾在一项研究中让ChatGPT做了一系列数学任务，包括简单的计算、数学证明题、搜索数学文献和奥数题。

结果也发现，ChatGPT在大多数任务上表现为「不及格」（相信它会很快提高）。

甚至小学生都会的数学题，它有时候都做不出来（数学老师不用担心学生拿AI作弊了）。

■会解方程的人都知道错在哪里

在需要多层逻辑推导的题目上，表现尤为糟糕（原因在于，它是一种AI语言模型，目标在于处理和理解人类的语言，更擅长生成类似人类的对话，而不是为了成为完美的数学计算器）。

■问：如果一根香蕉重 0.5 磅，而我有 7 磅香蕉和9个橙子，我总共有多少个水果？机器人快速回复：你有 16 个水果、7 个香蕉和 9 个橙子。然而正确答案应该是：有23个水果

最具迷惑性的是，哪怕ChatGPT做错数学题，也会非常「迷之自信」地给出看起来权威的错误答案。

美国德克萨斯大学教授保罗·冯·希佩尔，从事数据科学和统计学研究，他曾用毕达哥拉斯原理考验了ChatGPT，就得到了看似正确、实则错得一塌糊涂的答案。

「它可以生成大量使用几何术语的文本，但它根本不知道自己在说什么」。

正如外国网友的吐槽：「它表现得像一位专家，甚至可以用听起来令人信服的方式，真相、错误和捏造的信息混合起来，一本正经地胡说八道。

除非你有专业的数学知识，否则一定会被它带跑偏」。

是的，目前版本的ChatGPT可以从表面上谈论数学，但从没真正深入地「理解」数学的基础知识。

人工智能，就像计算器和计算机一样，最终可能对那些已经非常了解某个领域的人最有用：他们知道要问的问题，如何找出缺点，以及如何检验答案。

换句话说，这是一种工具，只适用于那些最懂数学的人，而不是最不了解数学的人。

目前，已经有很多研究AI的专家、学者在提醒老师、家长和孩子：「在借鉴ChatGPT给出的答案之前，一定要加以验证，不要过于依赖它。」

所以，企图自己不刷题，以后让AI来做的美梦，可以趁早破裂了。

■在不具备统计和数学基础时，基本不用考虑涉足机器学习领域了。

第二个反常识

AI 时代先别急着学STEM

从去年年底ChatGPT彻底大火以后，很多家长看到「机器学习」的风口那么火爆，就觉得自己的孩子一定要掌握编程，成为可以驾驭AI的人。

但另一个反常识的事实是：要成为未来AI时代的主人，比编程更重要的，其实是数学。

到了高年级，很多孩子学不会数学，就是没有掌握确切数学的抽象化思维能力——

如「3个苹果加2个梨总共有几个水果」，抽象成「3+2=5」的能力（到了高中，这个抽象过程会更加复杂、繁琐）。

还记得上面让ChatGPT做的题目中，关于香蕉的例子吗？AI做错的原因之一，就是难以将人类的自然语言，精准转化为正确的数学算式，得到正确的答案。

抽象化思维有多重要？

在一篇2022年的数学期刊中说：「学生的数学抽象能力的水平不仅是学好高中知识的一个重要标志，更是发展创造性思维的前提」。

谷雨「8090教书匠」栏目中，专门邀请机器学习领域的从业者和研究人员小白白老师和祁乐博士聊过一期，他们提到：

低龄阶段的 STEM旨在培养动手能力和兴趣，玩得开心最重要。

进入中学阶段，学生是否拥有从具体到抽象化的能力，才能理解更高阶的数学、物理知识，才是学好 STEM 的底层逻辑。

比如在STEM教育中，学生学习编程解决问题，这些问题有逻辑型问题、顺序型问题、算法型问题，而其中最难的算法型问题，就需要先把问题抽象成数学问题，然后用编程求解，学生的数学抽象化能力决定了其高度。

可以说，抽象化思维，才撬动STEM里创造性思维的「有力杠杆」。

来看一名美国的AI研究员Jason Dsouza给出的一张「人工智能数学能力图谱」（下滑查看）：

*感兴趣的朋友可以进入网站细看：https://github.com/jasmcaus/ai-math-roadmap

上面的这些数学，如果不具备抽象化思维，几乎连最基础的东西都听不懂。何况，这些还只是了解AI所需的最少、最基本的内容，相当于「入门级」。

所以，AI时代的底层制胜能力，还得从数学中获得。

正如这位AI研究员所说：

「在人工智能中，数学非常重要。没有它，就相当于没有灵魂的人体。」

第三个反常识

记忆和练习仍很重要

在 AI 时代，孩子熟练记忆和掌握数学的能力仍至关重要。

谷雨认识的一位老师在自己公众号Education Froontier写得非常详细👉AI时代就不用背乘法表了？哥大最新新研究：记忆是早期数学教育的关键。

有孩子被要求背诵九九乘法表和常用的加法组合在于将来接触多位数算术、分数和长除法的时候，能迅速调取知识，提高运算速度和正确率。

对于这种「熟练记忆数学知识」，目前的争论是：AI时代什么都能以0.1秒的速度搜索到，还有必要背诵吗？

而美国《教育周刊》最近的一篇文章给出了答案：他们确实需要。

在认知科学中，数学事实熟练度之所以重要，最基本原因是它能释放大脑或工作记忆的能力，从而进行更复杂的数学工作。

例如理解如何构建多步骤的文字问题、建立解决方案模型或解决方程组问题。如果基本的算术都难倒了学生，他们就很难去应对这些复杂的问题。

此外，能够自动回忆数学事实对于乘法尤为重要：如果学生没有将乘法口诀表存储在长期记忆中，他们在乘法运算中就没有足够快速的备用策略来依赖，学生进行乘法运算的速度和效率将受到影响。

对此，哥伦比亚大学教育学院的心理学和教育学教授罗伯特·西格勒（Robert Siegler）表示：

「当你不知道6x8的结果，而你正在做一个包含乘法的代数问题时，你需要花时间和注意力去连续加8六次。而且，随着数学问题变得越来越复杂，你不能无限期地重新计算这些。」

■哥伦比亚大学教育学院的心理学和教育学教授罗伯特·西格勒（Robert Siegler)

研究还发现，这些事实的熟练程度与后期学习的进步有关；尤其是乘法与分数的学习成功密切相关，而分数恰恰是许多年轻学生常常困惑的地方。

十分有意思的是，像乘法口诀，以及关于钱币、时间、距离等单位的换算，如果熟练地背诵下来，小学生都可以很好地完成相关题目，而AI却可能做不到。

纽约大学教授戴维斯，曾经让AI做了一道题：

乔治有七便士、一角硬币和四分之三硬币。哈丽特有四个便士和四个25美分硬币。首先，乔治原封不动地给了哈丽特三十一美分；然后哈丽特正好把一半的便士还给了他。乔治现在有多少钱？

AI的表现十分不佳。因为它缺乏基本的数学技能，难以识别人话背后的数学信息，不了解人类世界的常识性知识。

而这三点，恰恰是人类不费吹灰之力就能习得，并熟练运用的。至少在AI数学能力进步缓慢的今天，这是我们珍贵的数学优势。

培养熟练记忆数学事实的能力后，仍需要练习，练习，练习。

■深度研究过openai 的团队背景，大多也都是基础学科毕业，数学极强，才能进入深度学习领域。

哈佛大学认知心理学博士、弗吉尼亚大学教授Daniel T. Willingham，长期关注将认知科学应用到 K12 领域，在豆瓣评分 9.3 分神作《为什么孩子不爱上学》，从脑科学的维度给了我们新的启发：

数学练习少的孩子，往往只看到了「表面知识」，看不到知识之前的内在深层联系，做过的题目换一种变体就不会了，遇到更加抽象的高阶知识，大脑就「死机」。

若难以发现其中的深层结构，与发展创新性思维更是越走越远。

同时，牛津大学机器学习研究员Simon Frieder发现，哪怕ChatGPT在解题方面表现不好，但作为数学知识库，它的表现特别出色。

它可以作为一个强大的数学搜索引擎，可以帮助孩子对陌生的数学概念、事实性知识有快速初步的理解，对于高年级需要在数学上往前自学的孩子，特别有用。

至于AI不擅长的计算、推演和将具象信息转化为抽象符号，就需要孩子们放弃「用AI代劳」的想法，踏踏实实通过训练来提升。

有了这些基础，才可能架构出从具体到抽象的能力。就算未来不从事 AI 领域，这种能力也构成了浓缩概括的逻辑思辨能力的根基。

#重磅谷雨小会

独家招募开启，社群读者优先

谷雨星球是谁？

在嘈杂的信息时代下，我们愿做一股清流，传播真实故事和数据研究，提高认知力和思辨力，落地真实好项目，缓解焦虑。

#关于AI时代的更多文章：

#星标谷雨星球，每周两更

做内卷时代下的长期主义者

记录真实故事，抱团养娃

继续阅读

阅读原文

ChatGPT竟做不出小学数学题？！3 大「反常识」研究结果令人意外

迎战AI时代，麻省理工教授却说这类学科最能打