作者 | 卷毛
编辑 | 张洁
国产大模型持续升级,阿里这回又放大招了!
昨日,阿里云在云栖大会上正式发布千亿级参数大模型通义千问2.0
在10个主流Benchmark测评集中,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的GPT-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。
通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4
目前通义千问官网已更新2.0版本,新增图片理解、文档解析功能,同时通义千问APP也在各大手机应用市场正式上线,免费开放,APP还支持语音聊天功能。
通义千问官网:https://tongyi.aliyun.com/qianwen
除了基础模型升级,本届大会的重头戏莫过于通义“全家桶”正式上线,阿里云公布了基于通义千问开发的8个垂直领域模型
通义星尘:个性化角色创作平台
通义听悟:工作学习AI助手
通义灵码:智能编码助手
通义点金:智能投研助手
通义智文:AI阅读助手
通义法睿:AI法律顾问
通义仁心:个人专属健康助手
通义晓蜜:智能客服
通义大模型家族全面升级,体验地址:https://tongyi.aliyun.com/
其中通义星尘、通义智文等产品模型是首次亮相,而此前6月已发布的通义听悟目前累计用户数超100万,每天处理5万余个音视频;通义灵码则率先在阿里云内部大规模采用,广受好评。
阿里云首席技术官周靖人强调,阿里云做大模型不是为了做端到端的超级应用,这次发布的行业模型大部分不是完整产品,目的是给大家展示和开放能力。“我们的所有模型都欢迎 ‘被集成’”,开发者可以通过网页嵌入、API/SDK调用等方式,将上述的模型能力集成到自己的大模型应用和服务中。
那么升级后的通义大模型到底效果如何?来看看“头号AI玩家”新鲜出炉的一手实测。

通义千问:语音聊天更像人了

相比4月发布的1.0版本,通义千问2.0参数量全面提升至千亿级别,据介绍,其在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。
我们先问几个经典测试问题看看实力。
“昨天的当天是明天的什么?”这个问题GPT-3.5无法理解,而通义千问2.0训练有素,果断给出了正确答案。
“树上9只鸟,打掉1只,还剩几只?”通义千问分情况给出了完整的回答,看来还是有点东西。
“鲁迅为什么暴打周树人?”通义千问给了一段鲁迅的简介,并没有直接回答鲁迅和周树人是同一个人,可能是触发了审核机制,它提示我开启新对话,不能继续追问了。
在文学创作方面,我们要求通义千问描写瀑布,但不能出现“瀑布”二字,它巧妙地选择用拟人的手法回答,起的标题也符合文意。
对于复杂指令的理解,比如根据诸多要求写一个科幻小说的开头,它的回答速度很快,行文也符合逻辑。
通义千问这次还上线了图片输入功能。比如上传一张便当照片,它能精准识别有哪些食物,但无法提供更多热量信息。
我们也可以让它给图片配文案,变身甲方指挥它修改。
不过通义千问目前不支持生成图片,想体验文生图功能可使用通义万相,具体参考下文。
接下来让我们试试新推出的通义千问APP,整体界面比较简洁,会话页支持语音输入,沉浸式聊天则要切换到“语音对话”页。
通义千问提供了四种AI音色,分别是温柔的女声、严谨的男声、亲切的女声、幽默的男声。其中幽默的男声听起来和ChatGPT的男声相似,不过带点地方口音,有时不分平翘舌。
我们跟通义千问聊了会儿,一开始想让他扮演渣男,结果他拒绝了,表示不鼓励“性别歧视”。换成约会中的男女,他倒是情话信手拈来。
除了角色扮演对话,遇到专业问题,例如“直播带货的风口什么时候会过去”,他也能讲得头头是道。
我们发现通义千问的语音功能的确比机器音更自然,能模仿人说话时的停顿、语气词。在跨语言方面,它可以说中文、英文,能听懂一点方言,但只会用普通话说出来。它的回答有时会太冗长,不过我们可以随时中断再提问。
以上是我们对通义千问2.0的初步评测。据官方介绍,阿里云计划在11月开源通义千问720亿参数模型,周靖人称这将成为参数规模最大的中国开源大模型。

通义万相:一键生成虚拟模特

通义万相是阿里云在7月推出的AI绘画模型,目前累计用户数超50万,累计生成图片数超1000万张。
除了文生图、图生图、风格迁移等基础功能,通义万相这次上线了一系列场景化新功能。
“虚拟模特”功能支持对真人展示的商品图更换模特和场景,比如保留图中模特的穿搭,外国模特可一键替换成虚拟中国模特形象,背景从室外换到了室内,整体效果比较自然。
“写真馆”功能则类似于妙鸭相机,不过上传2~4张个人照片就能快速生成自己的虚拟形象。
涂鸦作画功能支持图文组合生图,随手画一个草图加上几句文字描述,没有绘画基础的玩家也能快速将创意落地。
目前通义万相可免费体验,一个账号每天能生成50次。未来还将增加3D头像、海报生成、商品展示图等新功能,看来在AI绘画领域阿里云还是会兼顾实用性和趣味性。

通义星尘:更个性化的AI角色对话

继百度文心一言、讯飞星火之后,阿里云也推出了个性化角色对话平台“通义星尘”,提供不同设定的AI角色如二次元人物、历史名人、萌宠、超级英雄,用户也可以自由定制角色。据介绍,通义星尘的上下文窗口支持最高16K,也支持长短期记忆。
比如这只性格傲娇的白猫露娜,一上来就要我给它罐头吃,还配有动作和神情描述,非常拟人化。如果你不知道怎么回答,还可以点击“给我聊天灵感”,AI会根据上下文自动生成回复。
不过也会有回答混乱的情况出现,露娜前一秒叫我铲屎官,后一秒就说自己是铲屎官了。
目前通义星尘提供了侦探推理、情感树洞、睡前故事、职场陪练、恋爱陪伴等多种应用场景,整体来说可玩性比较强。

通义智文:网页、论文、书籍都能读懂

最近大模型的长文本能力越来越强,处理上下文token不断刷新纪录。
通义智文作为一款基于通义大模型的AI阅读助手,同样面向多格式、多模态和长文本场景,支持文档对话、摘要、解析等功能。
比如一篇发布在公众号上关于AI agent的万字长文,左边显示原文,右边显示AI的总结摘要,这样方便我们快速抓住重点来高效阅读,遇到不明白的也可以向AI提问,顺便做好笔记。
长达361页的《三国演义》也不在话下,通义智文按章节列出了概要,点击概要还能定位到原文位置。

通义听悟:个人音视频知识库

作为内容编辑,我们经常会用到通义听悟这类音视频工具来转写录音、总结视频内容,可以缩短繁琐的整理资料的流程,提升创作效率。
通义听悟支持分别总结多位发言人的内容,问答详情也能清晰罗列。这次通义听悟即将上线对话功能“小悟助手”,能对转录内容进一步提问,更加智能化。
值得注意的是,最近通义听悟上线了“发现”板块,用户可以订阅播客频道,边听边看文字笔记。这表明产品正从工具向社区转变,提供更多内容,吸引用户停留。

通义灵码:解放程序员的智能编码助手

对于程序员来说,可能最关注的就是AI编程助手“通义灵码”,它专注于代码的理解和生成,支持代码补全、UT生成、代码解释等核心场景,目前面向所有开发者开放公测。
通义灵码可以协助专业人士完成各种编程相关的工作,并实时给出相应的建议,快速帮助提升代码编写的效率。根据HumanEval测试结果,通义灵码的问题解决率高达66.4%,超过行业平均水平的50%左右。
不懂编程的玩家也能用自然语言生成代码,比如输入“帮我用Python写一个飞机游戏”,短短数秒之间,通义灵码就能自动生成100多行代码,并且能够跑起来。

大模型的下一步,是生态竞争

除了以上我们实测的几款模型,通义还发布了针对金融、医疗、法律等行业场景的垂直模型,帮助从业者利用AI技术结合自己的业务场景来解决实际的问题。
通义点金:智能投研助手,支持解读财报研报,分析金融事件,自动绘制图表表格,实时市场数据分析
通义法睿:AI法律顾问,能正确引用法规和案例回答法律咨询,一键生成专属法律文书等
通义仁心:个人专属健康助手,支持解读体检报告、用药咨询等,目前处于邀测阶段
通义晓蜜:智能企业客服,可以根据企业需求定制化对话机器人,支持解析通话内容、分析客户情绪等,提升服务效率和客户满意度
截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。
此外,阿里云还在大会上发布了一站式大模型应用开发平台“阿里云百炼”,开发者可在5分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型,然后将更多精力专注于应用创新。
“促进中国AI生态繁荣,是阿里云的首要目标。阿里云将坚定打造AI时代最开放的大模型平台,我们欢迎所有大模型接入阿里云百炼,共同向开发者提供AI服务。”周靖人表示。
正如阿里云所要构建的AI生态,目前大模型行业的下一步便是发展生态,国外的ChatGPT最近将各类插件融合,用户可以在一个对话中无缝处理PDF、数据、DALL·E绘图等多项任务。
国内AI玩家也开始打造大模型生态土壤,不仅要有强大的基础大模型,更重要的是有丰富的行业模型、新生应用,有更多的开发者加入,生态的竞争会加速通用人工智能的到来,让AI真正融入每个人的生活中。

「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。
欢迎分享、点赞、在看
 一起研究AI
继续阅读
阅读原文