国内数十位AI大牛参与论文被指严重抄袭

大家好，我是陈锐。

感谢大家关注CRBrain脑世界公众号。

今天分享内容来源网络，仅供参考。

4 月 13 日消息，据澎湃新闻报道，北京智源人工智能研究院回复谷歌大脑的著名科学家 Nicholas Carlini 对一项中外合作大型学术论文涉嫌剽窃的指控称：“我们已经注意到对《A Roadmap for Big Model（关于“大模型”的路线图）》一文的质疑，正在对相关情况进行核实，智源研究院鼓励学术创新和学术交流，对学术不端零容忍，有关进展将尽快通报。”

2022年3月26日，清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学等多单位合作，唐杰等100多为作者在预印版平台arXiv 在线发表题为“A Roadmap for Big Model”的综述文章，该综述不仅涵盖了 BM 技术本身，还涵盖了 BM 培训和应用 BM 的先决条件，将 BM 审查分为四个部分：资源、模型、关键技术和应用。该综述在这四个部分中介绍了 16 个具体的 BM 相关主题，它们是数据、知识、计算系统、并行训练系统、语言模型、视觉模型、多模态模型、理论与可解释性、常识推理、可靠性与安全性、治理、评估、机器翻译、文本生成、对话和蛋白质研究。在每个主题中，清楚地总结了当前的研究并提出了一些未来的研究方向。在本文的最后，以更一般的观点总结了 BM 的进一步发展。

但是，近期该文章涉嫌抄袭Katherine Lee等人先前发表的文章，arXiv也在该文章做了文章重叠的警示。

此前 4 月 8 日，这篇数十位国内 AI 大牛参与论文被指严重抄袭，Nicholas Carlini 公开撰文，指控一篇于今年 3 月 26 日刊登在论文预印网站 Arxiv 的论文《关于“大模型”的路线图》（A Roadmap for Big Model）一文涉嫌严重抄袭。

该文是前不久国内外多家高校和企业共同完成的长达 200 页的学术综述论文，有多达 100 名作者，分别来自于清华大学、北京大学等国内高校，哥伦比亚大学、蒙特利尔大学等国外高校，字节跳动、华为、京东、腾讯等企业以及中科院和北京智源等机构。

Nicholas Carlini 在文章《机器学习研究中的一个抄袭案例》（“A Case of Plagarism in Machine Learning Research”）中则详细列举了该论文存在大段抄袭其他论文的嫌疑，证据是大规模的文本重叠，疑似被剽窃的论文也包括他自己的论文“Deduplicating Training Data Makes Language Models Better”。

此前 3 月 31 日，北京智源社区撰文以《如何炼大模型？200 页 pdf100 + 位作者 19 家单位！北京智源清华唐杰等发布》介绍该篇论文：“随着以深度学习为代表的 AI 技术的快速发展，智能模型的训练应用模式逐渐由‘大炼模型’向‘炼大模型’转变。大模型研究在近年来发展迅速，模型的参数量以惊人的速度扩展。北京智源人工智能研究院最近发布的《A Roadmap for Big Model》由悟道大模型研究项目负责人，智源学术副院长，清华大学计算机系教授唐杰牵头，从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索 4 个层面出发，对 15 个具体领域的 16 个相关主题进行全面介绍和探讨。非常值得关注。”

2022年4月13日，北京智源人工智能研究院分布了初步研究调查报告：

今天我们从互联网上获悉，智源研究院在预印本网站arXiv发布的综述报告“A Roadmap for Big Model”（大模型路线图）涉嫌抄袭。对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。

对于这一问题的发生，我们深感愧疚。智源研究院作为一家科研机构，高度重视学术规范，鼓励学术创新和学术交流，对学术不端零容忍。在此，我们向相关原文作者和学术界、产业界的同仁和朋友表示诚挚的道歉。

参考消息：

https://arxiv.org/abs/2203.14101

https://arxiv.org/abs/2107.06499

https://zhuanlan.zhihu.com/p/497629749

https://zhuanlan.zhihu.com/p/498064778

本文转载自以上公众号和网址，仅供学习参考，不作其它用途，有任何疑问及侵权，扫描以下公众号二维码添加交流：

继续阅读

阅读原文