过去一年，每100篇文献里就有1篇是ChatGPT“帮忙”写的

该图片由 AI 生成来源：Pixabay

最新的分析表明，2023 年发表的科学论文中的 1% 存在生成式 AI 参与的迹象。

来源 | 科研圈（ID：keyanquan）

撰文 | CHRIS STOKEL-WALKER

翻译 | 杜梦菲

编辑 | 魏潇

研究人员正在滥用 ChatGPT 和其他人工智能聊天机器人来制造科学文献。至少，部分科学家最近在担忧此事，他们的一项证据是发表的论文中疑似生成式 AI “口头禅”的词句数量急速上升。

其中有些泄露的例子相当明显地显示了撰文科学家使用了大语言模型（LLM）也就是 AI 聊天机器人，比如在爱思唯尔（Elsevier）出版的期刊《表面和界面》（Surfaces and Interfaces）近期一篇文章中意外包含了一句：“当然，以下是你提供的主题的可能的引言。”（certainly, here is a possible introduction for your topic）但“这只是冰山一角”，科学诚信咨询顾问 Elisabeth Bik 这样表示。爱思唯尔一位代表告诉《科学美国人》，出版社对这个情况深表遗憾，并且正在调查这篇文章是怎么蒙混过审稿过程的。在大多数其他情况下，AI 是否参与不是这么显而易见，并且自动 AI 文本检测器用于分析论文也是不可靠的。

然而，来自多个领域的研究人员已经识别到了一些关键词和短语，比如“复杂且多方面的”（“complex and multifaceted”）。它们在 AI 生成的句子中的出现频率往往高于一般的人类写作。英国伦敦大学学院（University College London）的图书管理员和研究者 Andrew Gray 表示：“当你对这东西看多了，你就能感觉到这种风格了。”

LLM 是被设计用来生成文本的，但它们生成的文本可能事实准确性不高。Bik 表示：“问题就在于这些工具还没有好到让人能够信任。”它们容易出现计算机科学家称之为“幻觉”的问题，简单来说，它们会捏造事实。Bik 指出，尤其对科学论文来说，AI 会生成根本不存在的参考文献。所以如果科学家过分相信 LLM，论文作者是在冒风险让他们的工作中被加入 AI 制造的错误，使得本就混乱的学术出版混入更多错误。

Gray 最近使用数据分析平台 Dimensions 搜寻了科学论文里的 AI 流行词，开发者宣称该平台可以追踪全球超过 1.4 亿篇论文。他搜索了那些聊天机器人偏好的词汇，比如“错综复杂”（intricate）、“一丝不苟”（meticulous）和“值得称赞”（commendable）。他表示，相比于 AI 特有的表述被马虎的作者复制到文章中导致真相泄露，这些词语更能反映问题的规模。根据 Gray 的分析，至少 6 万篇论文可能使用了 LLM，这略多于去年全球发表的科学文章总数的 1%，该工作已公开在预印本平台 arXiv.org 上，尚未经过同行评议。还有一些研究则发现某些子领域对 LLM 的依赖程度可能更高。其中一项调查发现近期的计算机科学论文中，高达 17.5% 的论文有 AI 写作的迹象。

制图：Amanda Montañez 数据来源：Andrew Gray

《科学美国人》使用多种科学出版数据库搜索也得出了类似的发现。（使用的数据库包括：Dimensions、谷歌学术、Scopus、PubMed、OpenAlex 和 Internet Archive Scholar。）搜索中为了寻找 LLM 参与了学术论文的文本生成迹象，要统计 ChatGPT 和其他 AI 模型会添加的经典表述的出现频率。比如，此次使用的四个主要论文分析平台显示，“根据我最后一次知识更新”（ as of my last knowledge update）这个表述在 2020 年仅出现了一次，在 2022 年出现了 136 次。不过，这种方法也存在一定局限性：它不能排除掉研究 AI 模型而不是使用 AI 生成内容的论文。并且这些数据库包含的内容不限于科学期刊中经过同行评议的文章。

与 Gray 的方法类似，这种搜索也发现了一些更微妙的痕迹，可能指向了大语言模型的参与。该方法观察了 ChatGPT 偏好使用的口头禅在科技文献中的出现频率，并追踪它们在 2022 年 11 月 OpenAI 的聊天机器人发布之前、从 2020 年开始的变化情况。这些发现表明，科学写作的词汇已经发生了一些变化——这可能是因为日益增加的使用聊天机器人的写作习惯。”有一些证据表明部分词汇正在在随着时间稳定变化，”Gray 说。“但问题是，这到底有多少是长期自然发生的语言变化，有多少是其他原因。”

ChatGPT的踪迹

为了寻找 AI 参与论文制造或编辑的可能迹象，《科学美国人》在搜索中深入挖掘了“挖掘”（delve）一词——正如一些非正式的 AI 文本监测人员指出的，这个词在学术界出现的频率出现了异常的飙升。在 PubMed 收录的约 3700 万条生命科学和生物医学论文摘要中，对其使用情况的分析表明了这个词的流行。“挖掘”从 2020 年的 349 次使用，增加到 2023 年的 2847 次，再到 2024 年的 2630 次——增长率为 654%。Scopus 数据库涵盖更广的科学领域，该数据库和 Dimensions 数据中也出现了类似但不这么明显的增长趋势。

根据《科学美国人》的分析，其他被监测人员标记为 AI 生成的流行词也出现了类似的增长。“值得称赞的”（commendable）在 2020 年 Scopus 和 Dimensions 追踪的论文中分别出现了 240 次和 10977 次。在 2023 年数字分别增长至 829 次（增长率 245%）和 20536 次（增长率 87%）。另外，对于本应该“一丝不苟”（meticulous）的研究来说有点讽刺的是，“一丝不苟”这个词从 2020 年至 2023 年间在 Scopus 中出现频率翻了一番。

不只是文字

在学术界，人们奉行“不发表就出局”（publish or perish）的信条，而通常在出版中必需的英语能力对写作者来说可能是外语或者第二外语，因此一些人使用聊天机器人来节省时间或增强他们的英语能力也不意外。然而，将 AI 技术用作语法或句法助手可能会让人滑向在科研的其他环节中也使用 AI 的错误。与 LLM 共同撰写论文可能导致关键数据也完全由 AI 生成或同行评议被外包给这些自动化的评估者。

这些不是在危言耸听。AI 一定已经被用在了论文中常见的科学示意图和插图中，一个明显的例子是有篇论文的插图是一只非常怪异的啮齿动物。而且，AI 甚至在实验中也代替了人类参与者。AI 聊天机器人的使用可能也已经渗透了同行评议过程本身，一个预印本研究支持了这一想法。该研究收集了2023 和 2024 年的 AI 领域会议上展示过研究的科学家收到的语言反馈，对其进行了分析。如果 AI 生成的文本、判断都悄悄进入了学术论文，这让专家们非常担忧。总部位于英国的非营利组织出版伦理委员会（Committee on Publication Ethics）致力于推动符合伦理的学术研究行为，其理事会成员 Matt Hodgkinson 表示：聊天机器人“不擅长进行分析，这是真正的危险之处。”

原文链接：

https://www.scientificamerican.com/article/chatbots-have-thoroughly-infiltrated-scientific-publishing/

本文转载自公众号“科研圈”（ID：keyanquan）

-电商广告-

《环球科学》2024年5月新刊正在热卖

戳图片或阅读原文

立即购买

点击【在看】，及时接收我们的内容更新

继续阅读

阅读原文