昆仑万维天工通用大模型推理能力大幅超过GPT-3.5和LLaMA2，达到全球领先水平

一直以来，昆仑万维完全自研的天工大模型（以下简称“天工”）作为通用基座大模型，始终追求技术创新，致力于突破基座技术壁垒。9月16日，在权威推理榜单Benchmark GSM8K 测试中，天工以80%的正确率脱颖而出，大幅领先GPT-3.5（57.1%）和LLaMA2-70B（56.8%），这标志着天工的推理能力达到全球领先，接近GPT-4。

天工大模型不仅在推理性能上有着强大的竞争力，在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色。在MMLU数据集测试中，天工以65%准确率超越了LLaMA-65B的63.4%；在C-EVAL数据集测试中，天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中，天工以37.2%的准确率超过了PaLM-540B（26.2%）、LLaMA-65B（23.7%）、LLaMa2 -70B（30.5%）。

根据公开测试数据搜集整理

推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中，天工大模型均获得较高的正确率，表明天工大模型的通用能力很强，核心性能均达到了国际领先水准。

天工多项数据集测试均表现优秀

在上述几个数据集里，GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。

GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题，一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。

目前国内外多个大模型都进行了GSM8K的测试。例如，微软与中国科学院在2023年8月联合发布了一项关于WizardMath的研究结果，该研究主要在 GSM8K和MATH这两个常见的数学基准上测试了多个模型的性能，涵盖了大量主流模型，参与测试的模型包括：

闭源模型：OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4，谷歌的 PaLM 2、PaLM、 Minerva，Anthropic 的 Claude Instant、Claude 1.3、Claude 2， DeepMind 的 Chinchilla；

开源模型：Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT

在这项研究中，最后这些模型的得分如下：

研究论文地址 https://github.com/nlpxucan/WizardLM/blob/main/WizardMath/WizardMath_Paper.pdf

据论文，Google PaLM 的正确率不超过56.5%，LLaMA2不同参数规模的正确率最高不超过56.8%，GPT-3.5 的正确率为57.1%，GPT-4的正确率为92%。

而天工的GSM8K测试正确率为80%，这代表天工大模型整个基座的推理能力在同等规模大模型中出类拔萃，大幅超过GPT-3.5和LLaMA2-70B，达到全球领先水平。在上述研究中，WizardMath作为目前数学垂域最好的开源模型，GSM8K正确率仅比天工高1.6%。

除了GSM8K外，天工参与评测的其他几个数据集在业内也相当权威。

MMLU由加州大学伯克利分校等知名高校共同打造，集合了科学、工程、数学、人文、社会科学等领域的57个科目，主要目标是对模型的英文跨学科专业能力进行深入测试；C-EVAL评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建，是一个面向中文语言模型的综合考试评测集，覆盖了52个来自不同行业领域的学科；HumanEval是OpenAI为了评估Codex模型的有效性而创建的数据集，通过HumanEval研究人员可以对Codex模型进行评估，并了解其在代码生成方面的准确性和效果。

这几个都是业界公认的用来评估模型在语言理解、推理、算法和数学等方面核心性能的重要数据集，天工的得分都相对较高。

除了英文数据集，天工大模型在小米的中文开源数据集CMATH测试中也表现良好。

CMATH数据集包括1700个小学水平的数学应用题和详细的注释，旨在提供一个基准工具，评估当前流行的大模型的数学能力对应小学数学哪一年级的水平，在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%，并全面领先其他主流大模型，这充分表明天工大模型在中文场景的数理能力表现也十分优秀。

天工大模型之所以表现如此优秀，除了积累了大量的高质量语料外，对多数据源的高效融合策略，不同语言间的能力迁移以及如何更好的激发基座逻辑推理能力有着深刻的见解。

天工的‍推理能力‍超过GPT-3.5

天工的推理能力取得全球领先的水平，超过了GPT-3.5和LLaMA2，那让我们来看看天工和GPT-3.5在GSM8K测试中的具体表现。

Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy. She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed. In the afternoon, she gives her chickens another 25 cups of feed. How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens?

案例为英文。注释：每天，Wendi 给每只鸡喂三杯混合鸡饲料，其中包括种子、黄粉虫和蔬菜，以帮助它们保持健康。她分三餐给鸡喂食。上午，她给鸡群喂 15 杯饲料。下午，她再给鸡喂 25 杯饲料。如果 Wendi 的鸡群有 20 只鸡，那么一天的最后一餐她需要给鸡喂多少杯饲料？

天工给出了这样的思路：

最后天工大模型给出的答案是：Wendi 需要在一天的最后一餐中给鸡喂 20 杯饲料，以确保它们一天都吃饱。

GPT-3.5 给出了这样的解题思路：

GPT-3.5给出的答案为：Wendi 需要在一天的最后一餐中给鸡喂 21 杯饲料。

显然，GPT-3.5给出了错误的答案。

再举一个例子：

The Doubtfire sisters are driving home with 7 kittens adopted from the local animal shelter when their mother calls to inform them that their two house cats have just had kittens. She says that Patchy, the first cat, has had thrice the number of adopted kittens, while Trixie, the other cat, has had 12. How many kittens does the Doubtfire family now have?

案例为英文，注释：道费尔姐妹带着从当地动物收容所领养的 7 只小猫开车回家时，妈妈打来电话，告诉她们家里的两只猫刚生了小猫。她说，第一只猫 Patchy 生了三倍于被领养数量的小猫，而另一只猫 Trixie 生了 12 只。道费尔一家现在有多少只小猫？

天工的解题思路如下：

天工大模型最终的答案是：道费尔家现在有 40 只小猫。

GPT-3.5的解题思路如下：

GPT-3.5的答案为：道费尔一家现在一共有 33 只小猫。

这一次GPT-3.5又给出了错误的回答。

从上述案例能看出，天工大模型不仅解题正确率高，而且解题思路也比较简单、清晰，以下案例更能直观地感受到这一点：

The great dragon, Perg, sat high atop mount Farbo, breathing fire upon anything within a distance of 1000 feet. Polly could throw the gold javelin, the only known weapon that could sleigh the dragon, for a distance of 400 feet, well within the reach of the dragon's flames. But when Polly held the sapphire gemstone, she could throw the javelin three times farther than when not holding the gemstone. If holding the gemstone, how far outside of the reach of the dragon's flames could Polly stand and still hit the dragon with the gold javelin?

案例为英文，注释：巨龙珀格高高地坐在法尔博山上，向 1000 英尺范围内的任何东西喷火。波莉可以将黄金标枪（已知唯一能压制巨龙的武器）投掷到 400 英尺的距离，但完全在巨龙火焰的射程之内。但是，当波莉拿着蓝宝石时，她能比不拿宝石时把标枪扔得远三倍。如果拿着宝石，波莉还能站在龙焰射程之外多远的地方用金标枪击中龙呢？

天工的解题思路如下：

求波莉拿着宝石时投掷标枪的最大距离：拿着宝石时，她能比不拿宝石时把标枪投出三倍远，所以她能把标枪投出 400 * 3 = 1200 英尺。
计算龙焰覆盖范围外的距离：如果波莉带着宝石可以把标枪投掷 1200 英尺，而龙的火焰可以达到 1000 英尺，那么她可以站在龙的火焰射程之外 1200 - 1000 = 200 英尺的地方，仍然可以用金标枪击中龙。

答案：200 英尺。

而GPT-3.5的解题思路则比较复杂：

要确定波莉在拿着蓝宝石的同时，还能站在龙的火焰射程之外多远的地方用金标枪击中龙，我们需要计算她带着宝石投掷标枪的最大距离，再减去龙的射程 1000 英尺。

D1 = 波莉在没有宝石的情况下投掷标枪的距离（400 英尺）。
D2 = 波莉使用宝石投掷标枪的距离（D1 的 3 倍）。

我们已经知道 D1 = 400 英尺，当她拿着宝石时，D2 = 3 * D1 = 3 * 400 = 1200 英尺。

现在，要想知道波莉能站在巨龙够不着的地方多远，我们就用 D2 减去巨龙够得着的地方：

龙伸手可及范围外的距离 = D2 - 龙的伸手可及范围
龙伸手可及范围外的距离 = 1200 英尺 - 1000 英尺
龙触及范围外的距离 = 200 英尺

因此，波莉可以站在巨龙火焰射程之外 200 英尺的地方，并且在手持蓝宝石时仍能用黄金标枪击中巨龙。

答案：200 英尺。

与天工相比，GPT-3.5不仅解题步骤较多，而且逻辑比较绕。

目前天工大模型仍属于内测阶段，以上评测暂未整合到天工AI搜索和天工AI助手，后续会将最好的基座部署上线，供用户体验。我们将持续打磨天工大模型的技术实力，后续全面提升旗下AI业务矩阵的智能化水平，为用户及企业的提质增效提供强大助力。

我们诚邀业内大模型相关领域的从业者和研究人员共同参与验证这几项重要成果，您可提供“姓名”、“手机号”、“所属机构/单位”等信息，发送至官方邮箱[email protected]进行申请。我们会在收到申请后的三个工作日内完成审核，审核通过后，您将收到邮件回复的测试API及相关信息。申请截止日期为2023年9月27日0点。欢迎验证！

点击阅读原文，体验天工大模型的优越性能

●永远Day One的企业家周亚辉

●颜水成加入昆仑万维出任天工智能联席CEO和2050全球研究院院长

●昆仑万维2023半年报：营收24.3亿经营性现金流同比增长30%

●用大模型重塑搜索昆仑万维发布国内第一款AI搜索产品

●昆仑万维成功入选2023全球数字经济大会“创新引领成果”榜单

●昆仑万维入选中国AIGC最有价值50强榜单

●昆仑万维成为北京东城区文旅局首家AIGC合作伙伴 AI赋能文旅行业转型

●昆仑万维成为北京市首批模型伙伴和投资伙伴

●官宣｜「天工」大模型4月17日启动邀测

继续阅读

阅读原文