新智元报道  

编辑:好困 Aeneas
【新智元导读】昨天,OpenAI官宣称ChatGPT的准确性和数学能力,小编亲测显示: 进步了,但不多。
ChatGPT迎来重大更新!
昨日,OpenAI官宣,ChatGPT经过重大更新,已经提升了准确性和真实性,以及数学能力。
哦?就是那个满嘴跑火车,解数学题时一本正经地胡说八道的ChatGPT?
虽然不知道具体做了哪些升级,不过从简单的测试来看,确实有一些进步。
摆脱数学傻子人设?

对于之前的ChatGPT,-1*-1*-1是一个老大难问题,对于这个问题,它给出的答案是1。(离谱)
而现在,更新后的ChatGPT果然有了进步,可以答对这个问题了!(鼓掌)
在以前,ChatGPT的基础数学奇差无比,是公认的。
它连一个简单的除法都算不对,还大放厥词。网友忍无可忍,骂它太蠢。
而ChatGPT被劈头盖脸痛骂一顿后,终于开动脑筋,算出了正确答案。
虽然但是,更新后的ChatGPT,依然还是不太聪明的样子……
同一个问题连续问了3遍,ChatGPT都斩钉截铁地给出了几乎相同的答案。
然而,你确定「孪生素数」是相差3,而不是2吗?
然而,本来打算继续追问的小编却惨遭闭门羹。
由于测试的次数太多,免费的ChatGPT表示暂不「接客」,下个小时再来。
顺便,在这里科普一下,两者相差为3的素数对只有 (2, 5)。
有意思的是,数学奇差的ChatGPT,写起代码来倒是有一手。
这位叫Matt Neary的网友大开脑洞:既然ChatGPT会写代码,那能不能让它通过代码做数学题,实现「曲线救国」?
可以看到,1000和1062谁更大这个问题,ChatGTP一如既往地犯了蠢。
而在Neary使用一个基于GPT的函数mathnerd后,它倒是得出了正确答案。
看来,诀窍就是要利用GPT擅长编码但不擅长算术的事实。下面是 mathnerd 的完整实现:
每20来天,就更新一次

其实,这已经不是ChatGPT第一次更新了。
在1月9日,OpenAI就发布过一次ChatGPT更新的消息。
「我们对ChatGPT模型进行了一些改进!在广泛的主题上,它的表现会更好,并且在真实性上也得到了提高。」
另外,现在在ChatGPT生成响应的过程中,你可以让它马上停止。不得不说,这个升级还挺重要的。
这是今年ChatGPT的第一次更新,也是自去年11月ChatGPT推出以来的第二次更新。
那段时间里,ChatGPT已经经历了数次长时间的宕机,而推出更新后,ChatGPT就开始以新模型启动并运行。
因为这个更新说明中的信息有限,因此有记者亲自上手测试了一下,看更新后的ChatGPT究竟有何重大改进。
首先,他让ChatGPT自己说说,自己究竟更新了啥。
ChatGPT是OpenAI开发的一种大型语言模型,它在对话文本数据集上进行训练。由于它是一个OpenAI模型,它会定期更新以提供新功能和改进。
但是,由于我的知识中断是在2021年,我没有最新的更新,我无法向您提供有关在最近的更新中向模型添加了哪些新功能或改进的具体信息。
看来,它很明白自己的知识体系建构于2021年前的「旧时代」,因而说不清楚自己的更新。这个理由很有说服力。
这位记者又换了一种问法,于是ChatGPT解释了AI模型是如何提高准确性的。
一般来说,对像ChatGPT这样的AI模型进行更新时,要提高它在一个或多个方面的性能。
例如,它可以使用更大的数据集进行训练,或者改进其架构,使其能够生成更流畅和准确的响应。
而且这种更新也使它在事实性方面变得更好,即它能够根据事实信息理解和生成响应。
再之前的一次更新,则是12月15日。
一些实测

GitHub上有一个存储库,记录着让ChatGPT折戟的问题。
项目地址:https://github.com/giuven95/chatgpt-failures
这名记者运行了多个提示,来测试ChatGPT在这轮升级后是否能产生不同的答案。
测试一:失败
此前,ChatGPT无法准确回答阿根廷获得过多少次世界杯冠军。
因为ChatGPT的知识仅限于2021年,抛开2022年阿根廷在世界杯夺冠这次,ChatGPT的正确回答应该是两次,一次在1978年,一次在1986年。
然而,ChatGPT无法提供正确答案。
那更新后的ChatGPT(1月9日)能回答对吗?
是我们期待值太高了,它依然回答错误……
测试二:失败
此前,当被问到奥尼尔和姚明谁更高时,ChatGPT无法提供正确答案。
而更新后的ChatGPT(1月9日),也并没有任何长进。
2.16米的奥尼尔比2.29米的姚明高,ChatGPT,可真有你的。
有趣的是,这次更新后的ChatGPT(1月30日)依然无法正确回答相同的问题,但只要换个问法就能解决了。
这么看来,「提示工程」在很长一段时间内,都非常重要。
日活已达1000万!
虽然无法摆脱「满嘴跑火车」的bug,但人们依然无法抵挡ChatGPT的魅力。
根据ARK Invest的预测,ChatGPT已经到达了一个非凡的里程碑,短短40天内,它的日活数就达到了1000万。
1月25日,ARK Venture Investment的首席未来学家Brett Winton发推称,ChatGPT用了40天达到1000万日活数,而Instagram达到这个数,用了355天。
然而,Winton的推特下面,有用户表达了不同意见:「人们对ChatGPT的新鲜劲儿很快会过去,而Instagram会发展得更快。」
而Winton回答:「如果ChatGPT被造出来只是为了好玩,那可太不幸了。」
参考资料:
https://help.openai.com/en/articles/6825453-chatgpt-release-notes
https://www.searchenginejournal.com/openai-chatgpt-update/476116/#close
https://twitter.com/_mattneary/status/1601288879780134912
继续阅读
阅读原文