整理 | 核子可乐、褚杏娟
去年 11 月初,知名私募巨头幻方量化宣布,其探索 AGI(通用人工智能)的新组织“深度求索(DeepSeek)”发布了 DeepSeek Coder 代码模型后,当月底又正式发布并开源了通用大语言模型:DeepSeek LLM 67B。
近日,DeepSeekMath 以 DeepSeek-Coder-v1.5 7B 为基础,并进一步使用来自 Common Crawl 的数学 token 及 500B 自然语言 / 代码数据 token 进行预训练,发布了 DeepSeekMath 7B。
DeepSeekMath 7B 能够在不借助外部工具包和投票法的情况下,在竞赛级 MATH 基准测试中取得 51.7% 的骄人成绩,已经接近 Gemini-Ultra 和 GPT-4 的性能水平。
该模型发布后,引发了 AI 社区的激烈讨论和称赞。
“DeepSeekMath 似乎是下一代 Llemma/Minerva 型模型,具有疯狂的性能。他们使用了一个非常聪明的技巧,从 Common Crawl(从 OpenWebMath 引导)中迭代地收集更多高质量的网页!”目前在多伦多大学攻读博士学位的 Keiran Paster 说道。
Stability AI 创始人 Emad Mostaque 甚至表示 DeepSeek 是最让他印象深刻且被低估的人工智能公司。
目前,DeepSeekMath 7B 代码存储库采用 MIT 许可证开源,支持商业用途。
开源地址:
https://github.com/deepseek-ai/DeepSeek-Math
具体测评
DeepSee 团队对 DeepSeekMath-Base 7B 基础模型的数学能力进行了全面评估,重点考察其不依赖外部工具时的自主数学求解、利用工具解决数学问题以及进行形式化定理证明的能力。除数学之外,还考察了基础模型的其他常规性能,包括自然语言理解、推理以及编程表现。
数学推理能力上,在竞赛级 MATH 数据集上,通过少样本思维链提示,DeepSeekMath-Base 7B 相较现有开源基础模型实现 10% 以上的性能提升,同时成功超越 Minerva 540B。
通过逐步推理解决数学问题
在工具使用能力上,经过 DeepSeekCoder-Base-7B-v1.5 的持续预训练,DeepSeekMath-Base 7B 得以编写出能有效解决并证明数学问题的程序。
使用工具解决数学问题
在保持相似的推理与编码性能方面,DeepSeekMath-Base 7B 的推理与编码性能与 DeepSeekCoder-Base-7B-v1.5 基本相当。
自然语言理解、推理和编码
微调
DeepSeekMath-Instruct 7B 是从 DeepSeekMath-Base 7B 衍生而来的数学指导微调模型,DeepSeekMath-RL 7B 则在 DeepSeekMath-Instruct 7B 基础之上由我们提出的组相对策略优化(GRPO)算法进一步训练而来。
DeepSeek 分别在四项英文与中文的定理推理基准测试中,评估了其使用工具 / 不使用工具情况下的数学表现。如下表所示,DeepSeekMath-Instruct 7B 展示出强大的分步推理性能,而 DeepSeekMath-RL 7B 则通过工具在 MATH 竞赛题上获得近 60% 的准确率,一举超越全部现有开源模型。
数据收集过程
DeepSeek 还列出了自己数据收集的过程:
步骤一,选择 OpenWebMath(高质量数学 Web 文本集合)作为训练 FastText 模型的初始种子语料库。
步骤二,使用 FastText 模型从已经过重复数据清除的 Common Crawl 数据库中检索数学页面。
步骤三,通过统计分析确定潜在的数学相关域。
步骤四,为这些已识别出的、与数学内容相关的域手动添加注释 URL。
步骤五,将注释 URL 所指向、但尚未被收集的网页添加到种子语料库内。跳转回步骤一,反复迭代四次。
经过四轮数据集迭代之后,DeepSeek 最终得到 3550 万个数学网页,总计 120B tokens。
想了解更多技术细节的读者可以查看:
https://arxiv.org/abs/2402.03300
想尝试该模型的可下载:
https://huggingface.co/deepseek-ai
你也「在看」吗? 👇
继续阅读
阅读原文