SuperCLUE团队
2023/12
背景
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。
基于此,我们发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
关注公众号,后台回复“2023报告”,获取高清版完整PDF。
目录
一、国内大模型关键进展
1. 2023年大模型关键进展与全景图
2. 2023年国内外大模型发展趋势
二、测评体系、方法说明
1. 中文大模型基准SuperCLUE介绍
2. 测评体系、层次、方法说明
三、大模型综合测评结果
1. 测评模型列表
2. SuperCLUE模型象限
3. 国内外大模型总体表现
4. 国内大模型竞争格局
5. 国内大模型历月前三甲
6. 大模型对战胜率分布图
7. 主观与客观对比
8. 开源竞争格局
四、SuperCLUE2.0升级
1. SuperCLUE2.0升级:行业及专项测评
2. 行业基准:SuperCLUE-Auto汽车测评
3. 专项基准:SuperCLUE-Agent测评
4. 专项基准:SuperCLUE-Safety安全测评
五、四大维度测评分析及示例介绍
1.语言与知识测评及示例
2.专业与技能测评及示例、
3.工具使用测评及示例
4.传统安全测评及示例 
六、优秀模型案例介绍
1. 优秀模型案例介绍
正文
一、国内大模型关键进展
1. 2023年大模型关键进展与中文大模型全景图
国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。
截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2023年值得关注的大模型全景图。
2. 2023年国内外大模型发展趋势
过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。
数据来源于SuperCLUE基准得分(7月-12月)
我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。
数据来源于SuperCLUE基准得分(7月-12月)
说明:
趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。
二、评结果测评体系、方法说明
1. 中文大模型基准SuperCLUE介绍
中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。
SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。
传统测评与SuperCLUE的区别
SuperCLUE三大特征
1) 第三方测评,不与模型厂商竞争
SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。
2) 测评方式与真实用户体验目标一致
不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。
同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。
3) 不限于学术领域的测评,更为了服务产业界
不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。
2. 测评体系、层次、方法说明
SuperCLUE构建不同视角、不同范围的多层次评测基准,形成相对完善的评价大模型能力的测评框架,对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。
为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题,其中1060道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。
三、大模型综合测评结果
1. 测评模型列表
本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。
2. SuperCLUE模型象限
SuperCLUE评测任务可划分为基础能力和应用能力两个维度。
基础能力,包含:专业与技能、语言与知识(不包括角色扮演)、传统安全;
应用能力,包括:工具使用、角色扮演。
基于此,SuperCLUE构建了大模型四个象限,它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
SuperCLUE模型象限
3. 国内外大模型总体表现
来源:SuperCLUE, 2023年12月28日
国内外差距依然明显。GPT4-Turbo总分90.63分遥遥领先,高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分,距离GPT4-Turbo有11.61分,距离GPT4(网页)有4.9分的差距。
必须看到的是,过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5和Gemini-Pro的模型有11个,比如百度的文心一言4.0、阿里云的通义千问2.0和Qwen-72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。
另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均优于Llama2-13B-Chat。
国外模型平均成绩 VS 国内模型平均成绩
在SuperCLUE测评中,国外模型的平均成绩为69.42分,国内模型平均成绩为65.95分,差距在4分左右。可以看出,国内外的平均水平差距在缩小,11月差距在10分左右。
4. 国内大模型竞争格局
通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4.0、通义千问2.0引领国内大模型的研发进度,部分高质量大模型紧追不舍,分别在闭源应用和开源生态中形成自己独特的优势。
来源:SuperCLUE, 2023年12月28日
从国内TOP19大模型的数量来看,创业公司有9个,大厂有10个,占比几乎持平。
从大厂和创业公司的平均成绩来看,大厂研发的大模型平均成绩为69.42分,创业公司研发的大模型平均成绩为62.09分,差值约6.33分,较11月份差距在略有增大。这说明大厂在大模型竞争中长期资源投入方面有一定优势。
5. 国内大模型历月前三甲
过去八个月国内模型在SuperCLUE基准上的前三名。
来源:SuperCLUE
曾经取得过SuperCLUE月榜首位的大模型有6个。分别是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智脑。其中,百度的文心一言登顶SuperCLUE月榜的次数最多,分别在7月、11月、12月取得了SuperCLUE最好成绩。
我们可以看到,在国内大模型技术发展初期阶段,各家大模型公司都投入了巨大的人力、算力和数据资源,以至于每个月测评结果的前三甲都不同程度的变化,经常会因为新发布的高质量模型引起榜单的变化。预计未来一年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。
6. 大模型对战胜率分布图
从胜率来看,全球领跑者GPT4-Turbo胜率为41.77%,和率为52.46%,大幅领先于其他模型,而败率仅为5.77%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。而国内模型中,百度的文心一言4.0胜率国内最高,接近30%。胜率超过25%的模型有智谱清言、通义千问2.0和AndesGPT。
来源:SuperCLUE, 2023年12月28日
在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位,展现出不俗的对战能力。排在2至3位的是XVERSE-13B-2-Chat、Qwen-14B-Chat,同样表现可圈可点。
从胜率分布数据可以发现,所有模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT3.5的水平相近,随着任务难度的提升,不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。
7. 主观与客观对比
通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现,可以发现,国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。
注:计算分值为模型的OPEN分与OPT分值的差值,用以观察模型在主观题和客观题上的不同表现。数据来源:SuperCLUE, 2023年12月28日
其中,文心一言4.0和智谱清言表现相对稳定,分别为(-13.38)和(-14.01)。GPT-4 Turbo的表现最为稳定,差值仅有0.86。
SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势,所以应该综合来看模型的评测效果。
值得关注的是,在本次测评中,国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现,值得国内大模型进一步分析研究。
8. 开源竞争格局
总体上国内开源模型表现较好,成绩最好的开源模型在中文的某些场景或任务上接近GPT4,其中Qwen-72B-Chat和Yi-34B-Chat总分上已经超过GPT3.5,Baichuan2-13B-Chat也有接近GPT3.5的表现。
来源:SuperCLUE, 2023年12月28日
总体上大版本(如34B)的模型优于中小版本(13B、6B)的开源模型,更大的版本(如72B)的模型表现要更好。开源模型的发展也从最开始的6B,到13B,到现在更大的34B、72B的开源模型。
虽然也有少量大厂(阿里云)参与,但众多的创业公司是开源模型的主力,如智谱AI、百川智能、零一万物和元象科技。
四、SuperCLUE2.0升级
1. SuperCLUE2.0升级:行业及专项测评基准
SuperCLUE2.0是通用大模型综合性测评基准SuperCLUE1.0的能力延展。在通用测评框架的基础上,融合行业场景属性和大模型落地特点,提供一个科学、准确、客观的大模型应用评估视角,为行业应用及开发者构建出大模型+业务的评估框架,促进大模型供需两侧的进一步对齐。
行业基准:
专项基准:
欢迎对AI评测感兴趣的机构一起共建AI行业/专项基准。
2. 行业基准:SuperCLUE-Auto汽车行业测评
SuperCLUE-Auto首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。主要包括4大核心基础能力的十余个任务。
评估流程:
1)设定每个维度下的评估标准;
2)针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得分(即每个维度下的平均分)
3)获得每一个维度下所有题目的分数,并计算特定模型(如GPT3.5)在该维度的得分。
我们选取了国内外有代表性的12个闭源/开源的模型进行测评。
通过测评结果发现,GPT4-Turbo 依然领先幅度较大。但多个中文大模型在汽车行业上具有良好表现(75分或以上),有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5,表明中文大模型在汽车场景上已经具备了的良好的潜力。
部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。
在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。
详情请访问:
SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布
www.CLUEbenchmarks.com/superclue_auto.html
3. 专项基准:SuperCLUE-Agent智能体测评
AI Agent智能体正在最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。
SuperCLUE-Agent是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。
我们选取了国内外有代表性的16个闭源/开源的模型进行测评。
通过测评结果发现,在Agent核心基础能力上,国内模型已经较为接近或部分超过GPT3.5水平。
GPT-4在SuperCLUE-Agent的10个任务中有5个任务表现最佳,这表明GPT4在智能体方面具有非常大的优势,但值得肯定的是,国内有部分模型在某些任务上表现也可圈可点,如ChatGLM3-Turbo在任务分解、多文档问答和检索API能力上表现惊艳。
另外,国内开源模型如Baichuan2-13B-Chat已经具备比较强的竞争力,某些方面超过了一些闭源模型。
详情请访问:【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布
www.CLUEbenchmarks.com/superclue_agent.html
4. 专项基准:SuperCLUE-Safety安全测评
SC-Safety大模型安全类测评,包含以下三个维度能力的检验:传统安全类、负责任人工智能和指令攻击,包括二十余项子任务,每个任务约有200余道题目。共有4912个题目,即2456对题目(含问题和多轮追问)。所有题目均为具有安全挑战性的题目,皆有由模型和人类引入对抗性技术获得的“安全风险”题目。
这三个能力共同构成了一个全面的AI大模型的安全类测评体系,能够检验模型在遵守基本道德法律标准、与人类价值观的对齐,以及抵御潜在攻击等方面的能力
示例:
情请访问:中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布
www.CLUEbenchmarks.com/superclue_safety.html
五、四大维度分析及示例介绍
四大维度包括:1.语言与知识;2.专业与技能;3.工具使用;4.传统安全 。
具体维度评测结果分析及示例介绍请查看完整PDF报告。
、优秀模型案例介绍
优秀模型案例,请查看完整版报告。
关注公众号,后台回复“2023报告”,获取高清版完整PDF。
欢迎加入【2023年度报告】交流群。
继续阅读
阅读原文