国产7B数学模型性能直逼千亿GPT-4，网友：他们用了很聪明的技巧

整理 | 核子可乐、褚杏娟

去年 11 月初，知名私募巨头幻方量化宣布，其探索 AGI（通用人工智能）的新组织“深度求索（DeepSeek）”发布了 DeepSeek Coder 代码模型后，当月底又正式发布并开源了通用大语言模型：DeepSeek LLM 67B。

近日，DeepSeekMath 以 DeepSeek-Coder-v1.5 7B 为基础，并进一步使用来自 Common Crawl 的数学 token 及 500B 自然语言 / 代码数据 token 进行预训练，发布了 DeepSeekMath 7B。

DeepSeekMath 7B 能够在不借助外部工具包和投票法的情况下，在竞赛级 MATH 基准测试中取得 51.7% 的骄人成绩，已经接近 Gemini-Ultra 和 GPT-4 的性能水平。

该模型发布后，引发了 AI 社区的激烈讨论和称赞。

“DeepSeekMath 似乎是下一代 Llemma/Minerva 型模型，具有疯狂的性能。他们使用了一个非常聪明的技巧，从 Common Crawl（从 OpenWebMath 引导）中迭代地收集更多高质量的网页！”目前在多伦多大学攻读博士学位的 Keiran Paster 说道。

Stability AI 创始人 Emad Mostaque 甚至表示 DeepSeek 是最让他印象深刻且被低估的人工智能公司。

目前，DeepSeekMath 7B 代码存储库采用 MIT 许可证开源，支持商业用途。

开源地址：

https://github.com/deepseek-ai/DeepSeek-Math

具体测评

DeepSee 团队对 DeepSeekMath-Base 7B 基础模型的数学能力进行了全面评估，重点考察其不依赖外部工具时的自主数学求解、利用工具解决数学问题以及进行形式化定理证明的能力。除数学之外，还考察了基础模型的其他常规性能，包括自然语言理解、推理以及编程表现。

数学推理能力上，在竞赛级 MATH 数据集上，通过少样本思维链提示，DeepSeekMath-Base 7B 相较现有开源基础模型实现 10% 以上的性能提升，同时成功超越 Minerva 540B。

通过逐步推理解决数学问题

在工具使用能力上，经过 DeepSeekCoder-Base-7B-v1.5 的持续预训练，DeepSeekMath-Base 7B 得以编写出能有效解决并证明数学问题的程序。

使用工具解决数学问题

在保持相似的推理与编码性能方面，DeepSeekMath-Base 7B 的推理与编码性能与 DeepSeekCoder-Base-7B-v1.5 基本相当。

自然语言理解、推理和编码

微调

DeepSeekMath-Instruct 7B 是从 DeepSeekMath-Base 7B 衍生而来的数学指导微调模型，DeepSeekMath-RL 7B 则在 DeepSeekMath-Instruct 7B 基础之上由我们提出的组相对策略优化（GRPO）算法进一步训练而来。

DeepSeek 分别在四项英文与中文的定理推理基准测试中，评估了其使用工具 / 不使用工具情况下的数学表现。如下表所示，DeepSeekMath-Instruct 7B 展示出强大的分步推理性能，而 DeepSeekMath-RL 7B 则通过工具在 MATH 竞赛题上获得近 60% 的准确率，一举超越全部现有开源模型。