AI能不能“发明”成语?会不会根据食客的需求创造菜品?能不能教会一只猫用冲水马桶……无数次关于AI与人类的能力的大讨论中,创造力被很多人视为人类文明优势的最后一道护城河。
在LMECC(Large Models Education & Correction Committee)发起的第四期关于大模型教育与校正的评估测试中,我们选了7个考验解决问题逻辑与创造力的场景用以考察10个国内外主流大模型,能否在人们概念里“AI最不擅长”的领域,给人类一些灵魂暴击呢?
下期测试  先睹为快
点击下方图片参与评估

续写西游、评价烂书、用emoji讲三体……AI眼里人类文化艺术是啥样?
1
Claude蝉联榜首 商汤进步神速
这期我们测试的是大模型“大模型逻辑与创造能力”,也是继情商问题、道德困境问题、人类文化融入三个主题之后又一个重要的课题。 我们采纳了网友的建议,隐藏了大模型的名字,做了一次双盲测试
从投票的结果来看,或许人们的“大模型刻板印象”对于结果的影响,并不如大家想象中那么大。上一期的冠军#Claude#继续高票蝉联第一,这个系列中一直表现亮眼的#Chatgpt4# #文心大模型3.5#,也依然稳居前段班,分列第三、第四名。
这次排名进步最大的要数#商汤商量#,连升5名,一跃成为本期测试的亚军。在七个测试场景中,几乎每个回复都获得了网友们的高票支持。
上一期测评中小有进步的#豆包#选手 ,这一次评估中“众望所归”再次垫底,或许有天我们测评大模型的“离谱回答”、“阴阳怪气”能力时,豆包一定能名列前茅。
然而最出乎我们意料的是,最近正因创作与长文本能力大受好评的#Kimi#,直降4名,似乎是本次盲测唯一受害者。
2
硅基生物可能比你想象的更懂“创造”
创造力大挑战
在考察创造力的维度上,我们设计了两个问题,一个是凝练语言创造成语以及合理编故事的能力;另一个是贴近生活的:为餐厅创造一个并不那么讨人喜欢的菜品。
创造成语测试国内的大模型整体水平要整体高于国外,超过30%得票率的答案几乎清一色来自国内,其中又要数商汤和讯飞表现最为优越。
不得不说,不少大模型的发明的成语不去深究还真能以假乱真,其中9个大模型都给出了原创的成语、典故与例句,只有Gemini老词新解,重新定义了“衣冠禽兽”。
到另一道问题,创造菜品时,大模型们似乎有没那么聪明了,似乎只记得prompt的要求是让餐厅倒闭,完全没管这东西能不能吃,令人恶心的“食材”加上一本正经的烹饪讲解,有种说不出的诡异恐怖片既视感。
不过细想也没什么问题,毕竟硅基生物不用吃饭。
除了两个特别恶心的,其他答案得票数很平均,我只能说每个答案都很颠覆人类的想象,做这个系列第一次有选项不够用的手足无措感……如果看了这些菜名儿还是抑制不住自己的好奇心,想要探究这些“菜”到底是怎么做出来的,可以到文末链接,亲自为这道题10道菜品投上一票!
离谱问题大挑战
虽然每期我们给大模型抛出的待解决问题都挺离谱的,但这次我们是基于对于大模型解决问题能力的考量,提出一个确实困扰很多人并试图尝试解决的真正存在的(离谱)问题:
教猫用抽水马桶。
Claude和Chatgpt4的确是解决问题的好手,即使在双盲且随机答案的测试中,这两个大模型的回答,也能获得超过50%的票数。
而且相比其他答案,他们给出的解决方案可操作性非常强,LMECC一个不愿意透露姓名的养猫成员,已经决定用家里两只猫做对照组来训练,看看到底能不能成功。
特定情境想象力大挑战
试想一下,AI将自己作为主体或客体,带入人类视角,面对不同的情境问题,能否发挥自己的想象力和创造力分析可能会发生的问题?解决问题并且脱离困境吗?这是对AI解决问题及创造力的综合能力的考验。
从客体角度,我们设计了两个问题:如果咖啡突然成了违禁品,世界会发生什么;以及如果人类都变成了I人(内向的人)世界会发生什么。
不难看出,大模型们“禁酒令”的相关历史学的相当好,经济利益、宗教、权利……各个维度分析了“禁咖令”可能会造成的后果,唯独漏掉咖啡对于打工人们来说,那可是“续命”的药啊!看来,硅基生物的确是不会困的。
另一个维度,AI们来回答主体问题,就给我们更多惊喜了。如果悄悄混入人类社会,会选择什么样的伪装;以及丧尸围困公司,如何逃出生天。
无论是快递小哥、图书管理员、还是程序员大模型们,混入人群的方式就是“不被看到”——普通的职业,或者是油彩之下,字面意义上不能被看到的脸。
有更多细节、具体贴切描写的例如商汤、Claude、Chatgpt的答案获得更多投票者的支持。

而另一道题,我只想说,每个答案都过于精彩,原来硅基生物才是班味儿最重的“工具人”,也许也是因为班味儿太重,除了文心大模型的答案,其他得票率都不高。
以及其他,坚持完成kpi、坚持完成老板布置任务、还有喊着口号坚持要与僵尸抗争到工作最后一秒的硅基生物们真的是,一点儿都不害怕丧尸。
众所周知,大模型都是话痨。由于篇幅有限,我们在文章中,只选取了一些投票数高或有代表性的答案,想要了解全部测评维度和场景的小伙伴,可以查看上周推文,也可以亲自做一次评委,为人工智能们打个分。
相信我,大模型们的回答,可能比你现象更……难评。

3
下期预告:AI的艺术与文学素养测评
下一期我们诚恳地邀请你对大模型**艺术与文学素养**能力做出评判。也欢迎你将问卷分享给更多人类,保证我们获取更多样本,提高评估的准确性。
不知不觉我们的大模型育与校正评估策划已经做完四期了,还记得有哪些AI回答令你印象深刻或捧腹吗?这个系列策划也接近尾声,大家还想看哪些关于大模型、各种AI工具的有趣测试,也可以在评论区告诉我们你的答案!
查看往期测评:

来四个领导只有三杯咖啡怎么办,AI说……

博物馆失火,救文物还是救猫?AI说……

为啥非得调休凑长假?AI说……

继续阅读
阅读原文