腾讯的大模型来了

正在召开的 2023 腾讯全球数字生态大会，腾讯自研的混元大模型正式亮相。

早在腾讯 2023 年股东大会，马化腾被问及大模型的问题，就曾说过「我们也一样在埋头研发，但是并不急于早早做完，把半成品拿出来展示。」可以说，国内大公司里，腾讯对大模型这件事上可以说是不疾不徐，完全按照自己的节奏走。

虽说不着急，但产品成熟度达到一定的状态后，总要拿出来，不藏着掖着了。这一次混元的全面亮相，应该做了充足的准备。

从模型算法到机器学习框架再到 AI 基础设施，腾讯是全链路自研。来看一下基本指标：超千亿参数规模，预训练语料超过 2 万亿 Tokens，主打中文创作能力，复杂语境下的逻辑推理能力，另外，还有任务执行能力。

通过强化学习的方法，让模型学会识别陷阱问题，对难以回答或是不应该回答的问题说「不」。另外通过位置编码优化，提高了超长文的处理效果和性能。另外，提出思维链的策略，能够像人一样结合实际的应用场景进行推理和决策。

多轮对话，内容创作，知识增强，逻辑推理…… 这些自然不在话下。我测试了一会儿，这个混元助手啊……活儿很全。无论是面试求职、编程写代码，营销写文案、计划出行、出谋划策……都已可用。

与国内其他大模型相比，腾讯的大模型的目标重点放在了技术在实际应用场景的落地与结合，总体感觉颇为务实。已经有超过 50 个腾讯自己的业务和产品接入了混元大模型的测试，用户可以直接体验得到。比如，腾讯会议、腾讯文档等产品中已经集成了相关能力，开箱即用。让我印象深刻的是在腾讯广告场景中的应用，广告主可以直接进行智能化广告素材创作。这也意味着混元对多模态能力的信心。

从开放性的角度看，混元大模型已经通过腾讯云对外开放，客户可以直接在腾讯云上通过 API 调用体验，也可以在公有云上基于混元先进行精调。对于依托于腾讯云的创业公司，多了一个使用大模型的选择。

现在各家都推出自己的大模型，每家都有自己的特点？如何横向比较？我此前提过的评估维度还是可以作为参考：

算法、算力、数据、产品、场景

算法方面，腾讯混元用的是自研算法，加上自研 Angel 机器学习框架，训练方法的创新实践。

算力，中国所有公司都面临类似的问题，但即使有问题，一旦到了要投入的阶段，对于腾讯这种体量的公司而言也不是个事儿，何况腾讯云的算力规模本来就不小。

数据上，腾讯可以用来训练的语料规模足够大，语料质量不差，这方面优势明显。

产品层面，腾讯的产品能力还用担心？从另一个角度想，腾讯的产品体验本来就很不错，现在加上 AI 的能力，产品体验可能更进一步。

场景上，腾讯有诸多可以落地的场景，是腾讯大模型战略的主打重点。另外，不要忘了 QQ 和微信这两个超级场景，还有粘性非常高的游戏场景。

整体看下来，加上我的初步体验，腾讯混元大模型综合实力不俗。这一场大模型大战，有好戏看。

‍‍

继续阅读

阅读原文