弱智吧竟成最佳中文AI训练数据？中科院等：8项测试第一……

离大谱了，弱智吧（Ruozhiba）登上正经AI论文，还成了最好的中文训练数据？

弱智吧是一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：

Ruozhiba, which literally translates to “Idiot Sub-forum”, is a bizarre corner of the Chinese internet. This sub-forum on Reddit-like Baidu Tieba is filled with ridiculous, pun-filled, logically challenging threads that will twist your brain into a pretzel.

近日，中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等知名高校和机构成员发表的论文“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”（COIG-CQIA：质量是中文指令微调最需要的），该论文选用了弱智吧等中文互联网社区作为数据来源，经转载和解读后走红网络。

该论文指出现有的中文指令微调数据集所存在的问题：

中文独特的语言特点和深厚的文化底蕴给指令微调任务带来了挑战。

The unique ling‍uistic features and cultural depth of the Chinese language pose challenges for instruction tuning tasks.

现有的中文指令微调数据集存在一些固有问题，如不自然的中文交流模式、缺乏真正的中文语言数据、包含大量有问题的数据点、数据规模较小等。

The available datasets for Chinese instruction tuning have inherent issues such as not aligning with natural Chinese communication patterns, lacking genuine Chinese linguistic data, containing numerous problematic data points, and having small-scale data.

因此，该团队从中文互联网上的各种来源收集了高质量的人工写作语料。

Therefore, the research team collects a high-quality human-written corpus from various sources on the Chinese Internet, including Q&A communities, Wikis, examinations.

具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。

经过对语料的严格清晰和认真处理后，形成了 COIG-CQIA 数据集。

This corpus was rigorously filtered and carefully processed to form the COIG-CQIA dataset.

而真正引爆网友好奇心的，是该团队开展的一项“电子斗蛐蛐”。

经过深入评估和分析，论文作者在 CQIA 的不同子集上训练了各种规模的模型。

该研究团队筛选了CQIA的一个数据子集，用它和这些不同来源的数据集分别来训练 Yi-6B，再通过 BELLE-EVAL 使用 GPT4 进行评估。而令人大跌眼镜的是使用“弱智吧”数据训练出来的模型，在总体评分上位列第三，在多项指标上表现优异。

在安全评估方面，弱智吧数据训练出来的模型也仅次于从本次研究成果CQIA精选出来的数据子集：

对于“弱智吧”的优异表现，研究团队也做出了猜测：

在所有子集中，“弱智吧”平均排名第二。我们推测，这是因为它可能会增强模型的逻辑推理能力，从而使大多数指令跟踪任务受益。
Ruozhiba ranks second on average across all subsets. We conjecture this is because it may enhance the model’s logical reasoning ability, thereby benefiting most of the instruct-following tasks.

对此，许多网友也发表了自己的看法：“果然人类最后的防线是抽象。”

在中文大模型向公众开放之初，人们虽然感慨其功能的强大，但也因其回答死板、答非所问等问题调侃它们为“人工智障”。但是随着大模型训练的不断推进，人工智能已然能够处理以往看似难以完成的任务，比如“AI不会画手”、“AI不懂脑筋急转弯”等问题已经逐步被解决。显然，人工智能的发展日新月异，越来越多参与到我们的日常生活之中，乃至成为不可缺失的一部分。

你在日常生活中会使用AI工具吗？现在的AI工具满足你的期待吗？留言说说吧。

来源：21世纪英文报量子位

China Daily精读计划来了！

每天20分钟，

带你学英语，看世界！

点击图片，了解更多

↓↓↓

推荐阅读

警方披露“秦朗丢作业”详情，涉事网红已被多平台封号

间谍窃取我国杂交水稻亲本种子！案件详情公布

继续阅读

阅读原文