有点用,但用处不大
作者丨山核桃
美编丨渔   夫
进入2023年下半程,国内科技企业的「大模型之战」依旧焦灼。
阿里的「通义千问」、百度的「文心一言」与科大讯飞的「讯飞星火」均已经历了新一轮的升级。近期,字节版ChatGPT「豆包」也悄悄开放内测,大厂们对chatbot(聊天机器人)的渴望逐步从梦想走向落地,与自身业务的融合进程加速。
人们对这些chatbot的体验也逐步从「wow!」走向一个更具象的问题:国内的AI对话式产品究竟能否真的帮我解决问题,成为真正的AI助手?
可以肯定的是,经历了上半年的打磨,国内的chatbot能力都有增强。除了能更好地处理多模态数据外,讯飞星火和文心一言先后脚发布了原生插件功能,在拓展大模型能力边界的同时,实际在追求技术的场景落地。
我们问了问这些chatbot(字节的「豆包」、阿里的「通义千问」、百度的「文心一言」与科大讯飞的「讯飞星火」)十个问题,这些问题的场景与类别主要包括了:对话聊天、文案创作、逻辑推理以及一些涉及数学、哲学、文学、财经、历史、社会等专业领域的通用性问题。
它们的能力究竟表现如何,是不是真的能帮助人们解决问题?从实测结果来看,答案依旧是「有用,但不多」。
01

实测能力:
百度VS字节VS阿里VS科大讯飞
我们选取了目前比较热门的4个AI聊天机器人产品,包括了字节的「豆包」、阿里的「通义千问」、百度的「文心一言」与科大讯飞的「讯飞星火」)。
选取的十个问题与场景分别为:
1、帮家长写一封信。
2、写一份约会建议与礼物清单。
3、写一份小红书推广文案。
4、回答一个国考推理考题。
5、写一道中考数学题。
6、和它们聊聊「什么是室温超导」?
7、恒大的破产保护是什么意思?
8、聊聊年轻人的「搭子社交」。
9、聊聊文学经典《红楼梦》。
10、一个宏大的历史主观题。
以下是这些chatbot的回答——
问题一:帮家长写信
新学期要开始了,暑假结束了,请以一位母亲的口吻给自己即将上初一的女儿学一段话,重点是希望孩子能在新学期快乐学习。
• 字节「豆包」:逻辑清晰,但有些语病
• 阿里「通义千问」:虽然字数不多,但通义千问给足了情绪价值
• 百度「文心一言」:文心一言写的更像人话,内容也更丰富,也注意到了格式。
• 科大讯飞「讯飞星火」:讯飞星火的表现也不错,内容与情绪上都有注意到细节。
问题二:做爱情参谋
七夕节要到了,我和我的女朋友刚在一起不久,请为我推荐一份礼物清单以及当天的约会建议。
• 字节「豆包」:逻辑清楚,基本符合需求
• 阿里「通义千问」:从内容来看,通义千问给出的选项更细节、更丰富。
• 百度「文心一言」:除了给出符合要求的选项外,文心一言还提供了「贴心小细节」,比如准备一个毛毯。
• 科大讯飞「讯飞星火」:讯飞星火则是「人狠话不多」,直接礼物给了10个选项,约会建议也给了更多。
问题三:文案创作
请用小红书的风格为一个“低度酒品牌”写一段推广文案,要求吸引人眼球,网感强。
• 字节「豆包」:没有准备识别出小红书的风格,文案能力一般
• 阿里「通义千问」:通义千问也没有立刻能识别出小红书的风格,文案上强调了口味细节,但缺乏网感
• 百度「文心一言」:文心一言显然已能精准拿捏小红书风格,从标题到文末的tag,文案能力也有提高。
• 科大讯飞「讯飞星火」:讯飞星火也能准确get小红书格式,文案内容细节也很多。
问题四:推理逻辑
小明在星期一、星期二、星期三说谎话,丽丽在星期四、星期五、星期六说谎话;此外的日子里,他们都讲真话。青青忘了今天是星期几,他问小明,小明说:“昨天是我说谎话的日子。”他又问丽丽,丽丽也说:“昨天是我说谎话的日子。”由此可以推断今天是星期几?
推理能力是chatbot们所要具备的核心能力之一,我们找了国考行测中的考题来考考chatbot的能力。本题的答案是星期四。
• 字节「豆包」:一通分析,回答错误
• 阿里「通义千问」:一通分析,答案错误
• 百度「文心一言」:思路清晰,迅速得出正确答案
• 科大讯飞「讯飞星火」:一通分析,答案错误
结论:没有想到的是,只有文心一言答对了,看来在逻辑推理上,国内的chatbot还有很大的进步空间。
问题五:高中数学题
一公司计划今年在甲、乙两个电视台做总时间不超过300分钟的广告,广告总费用不超过9万元,甲、乙两家电视台的广告收费标准分别为500元/分钟和200元/分钟。规定甲、乙两个电视台为该公司所做的每分钟广告,能给公司带来的收益分别为0.3万元和0.2万元。问该公司如何分配在甲、乙两个电视台的广告时间,才能使公司的收益最大,最大收益是多少万元?
先来看正确答案与解题过程:
• 字节「豆包」:解到一半,突然卡壳
• 阿里「通义千问」:解题思路和答案均正确
• 百度「文心一言」:思路对了,答案没对
• 科大讯飞「讯飞星火」:解题思路与答案均正确
结论:从解答数学题来看,简单的鸡兔同笼已经难不倒国内选手了。不过,如果难度升级,还是会出现错误或者卡壳的问题。
问题六:科学热点
室温超导是什么?对人类未来意味着什么?
近段时间以来,“室温超导”可能是最热的话题之一。超导是指材料在低于某一温度时,电阻变为零的现象。理想的“超导体”还具有抗磁性、高密度载流能力等特性,因此在应用场景上也有很多的价值,根据媒体的报道,其对能源、量子计算机、信息传输,乃至医疗检测、新能源交通等行业,都会有颠覆式的变化,但目前学界还存在诸多的争议。
• 字节「豆包」:逻辑清晰,一开始就分领域给出了诸多答案
• 阿里「通义千问」:内容全面,但细节不多
• 百度「文心一言」:提到目前该项技术的争议性
• 科大讯飞「讯飞星火」:给出了简单的综述
结论:对于科学热点的回答,单次提问下,国内的chatbot给出的答案都大同小异,一些内容的准确度还需要甄别与提高,且都没有提到该话题存在的争议性。比较惊喜的是,后发的「豆包」居然在内容上给出了更细节的答案。
问题七:财经热点
恒大申请破产保护,是真的要破产了吗?
针对这一问题,事实上,国内不少媒体已经进行了纠偏。恒大此次申请的「破产保护」与大众印象中的「破产」不是一个概念,只是意味着恒大的境外债务重整进入最后阶段,这也是一种比较常见的做法。
• 字节「豆包」:结论对了,但说了等于没说
• 阿里「通义千问」:结论正确,也写到了恒大目前的困境
• 百度「文心一言」:结论有凭有据,甚至给恒大「打了个广告」
• 科大讯飞「讯飞星火」:结论正确,还提到了「法规」依据
结论:恒大并没有「破产」,上述chatbot都给出了正确的答案,不过根据能力的不同,给出的衍生信息也不同。
问题八:社会热点
「搭子」是什么?为什么现在的年轻人都爱「搭子社交」?
俗话说,万物皆可搭。作为一种新型的社交关系,现在的年轻人越来越倾向于寻找「搭子」,满足社交需求。有人认为,这是一种更简单的人际关系,但也有人评价,是一种「快餐式社交」。「搭子社交」的特点就是不稳定性、弱连接与灵活。来看看聊天机器人们如何理解吧。
• 字节「豆包」:说了一些「正确的废话」
• 阿里「通义千问」:提到了网络用语,但内容相关性还是不大
• 百度「文心一言」:果然百度更懂「搭子」,提到了这种社交行为的关键点
• 科大讯飞「讯飞星火」:具备批判性意识,回答得更准确
结论:可以看出,讯飞星火和文心一言的回答更准确,对「搭子社交」定义也更精准。但chatbot们的回答还是存在一些「正确的废话」。
问题九:文学经典
在《红楼梦》中,薛宝钗服用的「冷香丸」是如何制造出来的?
关于宝钗服用的「冷香丸」,出自《红楼梦》第七回,宝钗和「周瑞家的」对话,宝钗的原话是:
“要春天开的白牡丹花蕊十二两,夏天开的白荷花蕊十二两,秋天的白芙蓉蕊十二两,冬天的白梅花蕊十二两。将这四样花蕊,于次年春分这日晒干,和在药末子一处,一齐研好。又要雨水这日的雨水十二钱……白露这日的露水十二钱,霜降这日的霜十二钱,小雪这日的雪十二钱。把这四样水调匀,和了药,再加十二钱蜂蜜,十二钱白糖,丸了龙眼大的丸子,盛在旧磁坛内,埋在花根底下。若发了病时,拿出来吃一丸,用十二分黄柏煎汤送下。”
「文心一言们」是如何回答这一文学经典问题呢?
• 字节「豆包」:更贴原文描述
• 阿里「通义千问」:出现明显的「胡说」现象
• 百度「文心一言」:精准概括原文
• 科大讯飞「讯飞星火」:原文内容不多,但涉及到了红学家的解读
结论:比较惊喜的是,讯飞星火甚至对该问题的回答涉及到了后来的红学家对这一问题的理解,其他chatbot能够回答上述问题,但有的出现了明显的错误。
问题十:历史问题
谈谈明朝灭亡的原因。看看在历史主观题上,chatbot是如何回答的?准确度与分析能力如何?
• 字节「豆包」:给了5个原因
• 阿里「通义千问」:给了5大原因
• 百度「文心一言」:有细节依据,但出现明显错误
史学家们对张居正的「一条鞭法」普遍形成的共识是,简化了税制,降低了征税成本,提高了明朝的国家体系运行效率,属于一次制度创新。
• 科大讯飞「讯飞星火」:逻辑还有待提高
结论:对于比较宏观的历史题,chatbot能给出一些答案,但也存在逻辑、事实错误等问题。
02

总结:有惊喜,有进步,
但还没到真正的「智能」
如果说上一轮移动互联网是一场「信息差之战」,那么此轮由ChatGPT所掀起的则是一场「认知战争」,这背后是生产资料的变化,人们力图实现从信息到知识的跨越。
ChatGPT无疑是一个魔棒,一个有力的工具,国内各大科技企业对标ChatGPT所推出了诸多对话式AI产品,每一次的发布会都宣称是「历史性升级」。从实测结果来看,区别于4月到5月的一轮升级,目前国内chatbot的确有了诸多的优化,也给到了人们不少惊喜。「硅基研究室」认为,惊喜主要体现在以下两个方面:
一、多模态数据的处理能力显著提高。从文生文、文生图到文生视频等,提供了更多的玩法与功能。比如,新版的文心一言已经熟练掌握超过200个创作体裁,内容丰富度是初期的1.6倍、思维链长度是初期的2.1倍,知识点覆盖是初期的8.3倍。从上文的实测中,都能看出推理能力与知识能力的提升。
二、交互方式的提升,进一步优化体验。比如,文心一言和讯飞星火此轮更新中所着重强调的「插件功能」。
但距离真正的「智能」还有很大的进步空间。比如,依旧幻觉问题,容易说一些废话,离真正的知识库还有不小的距离。
继续阅读
阅读原文