「这里是当天最值得关注的新闻
撰文/编辑:吴洋洋
9月7日,腾讯在「腾讯云全球数字生态大会」上推出了其首个类GPT模型「混元大模型」。不过一天之前,9月6日,微信就已在小程序中上架类ChatGPT产品「腾讯混元助手」。
「腾讯混元助手」目前仍处于邀请测试状态,用户需提交申请,获得内测资格后才可以体验。产品介绍中,微信称该AI助手为「多模态对话Bot产品」,可以回答各类问题,也能处理多种任务,包括翻译、提供工作建议,甚至能解决数学问题。
根据9月7日腾讯副总裁蒋杰在发布会后接受媒体采访时的说法,「腾讯混元助手」基于的应该正是腾讯最新发布的「混元大模型」。
混元大模型的基本性能
混元大模型使用了2万亿token训练模型,模型的参数量最终超过1000亿(注:GPT-3参数为1750亿)。
腾讯副总裁蒋杰在发布会上称,混元大模型目前的训练数据截至2023年7月,此后会每个月迭代。作为对照,ChatGPT所基于的GPT-3.5的训练数据截至2021年,为了使它能够知道2021年之后发生的事情,OpenAI的方案是不改变模型,而为ChatGPT接入互联网使其可以检索实时数据。
腾讯称混元大模型为「通用大语言模型」(Large Language Model,LLM),但发布会上,蒋杰在结束发言前展示了一个由混元大模型生成的视频,同时在腾讯的新闻通稿中,也出现了一张用混元大模型生成的图片,标题是「混元大模型在腾讯广告中的应用」。这些能力展示意味着混元大模型更大概率是一个多模态模型,而非单纯的语言模型。两者的差异相当于GPT-3.5(语言模型)与GPT-4(多模态模型)的差异。
混元大模型优势与不足
优势1. 全自研、更可控
蒋杰称,混元大模型在平台、模型、算法等多个层面「全链路自研」,而非像国内一些模型那样基于开源模型精调。「不从头做自研的话,你就没有对这个技术完全掌握,别人训练好的模型,里面出现一些违法有害信息的时候,就没法在模型里做更多更改。」蒋杰在发布会后接受媒体群访时说。
此外,蒋杰认为只有自研才能有助于模型的后续迭代、与其他业务或产品更快完成深度绑定,以及更好应对腾讯的那些高并发业务(比如微信、QQ、腾讯视频等)。他认为很多开源模型的架构并不能支持腾讯的高并发业务。
优势2. 英文表现不如GPT-3.5,但中文表现优于GPT-3.5
蒋杰称,中文能力是混元大模型首要关注和想要攻破的对象。他表示混元大模型在中文任务上的表现不错,比如在腾讯会议的会议总结、会中问答、会后摘要任务中,他们测试发现基于混元大模型的AI助手,用户采纳率优于基于GPT-3.5的助手表现。
不过在英文任务中,混元大模型仍然无法与GPT-3.5相比。
不足:对复杂任务的处理能力还不够
腾讯称,混元大模型已经接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品展开测试。其中,腾讯文档和腾讯会议已基于混元大模型开发了智能文档和「AI小助手」,功能与阿里巴巴此前接入钉钉的AI助手类似,包括会议总结、会中问答、会后摘要等。
但是针对其他「严肃的专业场景」,蒋杰称当前多数模型的应用仍然有限。整场发布会和采访过程中,他都没有提到生成式AI在游戏、金融领域的应用,或者混元大模型在接入腾讯游戏和腾讯金融科技后的测试效果。
️腾讯混元大模型 vs 腾讯行业大模型
6月19日,腾讯云曾经发布过一个叫「腾讯行业大模型」的东西,它包括金融、文旅、政务、传媒、教育等十大行业的多个模型。腾讯至今未披露过这些「行业大模型」所基于的基础模型是什么,只是称它们依托的是「腾讯AI大模型技术积累」。
蒋杰称,混元大模型将作为腾讯云MaaS(Model as a service,模型即服务)的底座。
据《新皮层》此前了解,「混元大模型」和「腾讯行业大模型」由腾讯旗下的两个AI团队——AI Lab和优图实验室分别开发。其中,AI Lab隶属于腾讯技术工程事业群(Technology and Engineering Group,TEG),由张正友带领;优图实验室隶属于腾讯云与智慧产业群(Cloud and Smart Industries Group,CSIG),由吴运声带领。
腾讯大模型的开发架构不同于阿里巴巴和百度,后两家公司的大模型都由所在公司的云计算团队独立开发。不过,业内并非只有腾讯一家公司内部同时有多个团队开发大模型,Meta也是如此,其Llama系列模型就是由位于巴黎的团队开发的,与此同时,Meta内部还有一个位于北美的团队开发了另一个名为OPT系列的大模型。
不过,这种「赛马」的说法无法证实,因为虽然腾讯内部有赛马文化,但大模型的投入规模使得赛马可能是一种资源浪费。那么,「两次发布大模型」带来的混乱还有一种可能,那就是腾讯云6月19日就召开发布会发布的「行业大模型」所基于的就是混元大模型,因为腾讯与各业务线内测混元大模型已有一段时间,否则微信没有可能在混元大模型发布前一天就在小程序上线了ChatBot「腾讯混元助手」。
蒋杰也表示,腾讯内部对大模型已有明确分工:公司对混元大模型的定位是「腾讯内部的开源模型」,腾讯的所有业务可以基于该大模型做能力测试和应用,至于各业务线要向市场提供什么能力、产品或服务,以及在什么时间发布,都由各业务团队自己来决定;蒋杰所带领的混元大模型团队则更关注提升模型的基础能力,包括减少胡言乱语、不安全、不可靠、逻辑思维能力不强等问题;而腾讯云负责将模型能力对接给B端客户。
目前,混元大模型已接入腾讯云,此前加入腾讯云的模型已有Llama 2、Bloom等20多个。
-END-
若想了解更多当日资讯,请点击阅读往期智能晚报
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文