最近有朋友跟麦教授提到了一篇很有意思的paper,标题叫《One Venue, Two Conferences: The Separation of Chinese and American Citation Networks》。
这篇paper的结论基本上speaks for itself了——中美论文引用的分离。研究主要以NeurIPS收录的论文为例,统计并量化了中美两国的机构引用对方地区论文的情况,再将其与欧洲进行比较,进而讨论造成这种学术研究上的分离的原因。
全球最负盛名的人工智能盛会之一NeurIPS,全称神经信息处理系统大会(Conference on Neural Information Processing Systems),与ICML并称为人工智能领域难度最大,水平最高,影响力最强的会议。被NeurIPS接收的论文,也代表着当今神经科学和人工智能研究的最高水平。
今年的NeurIPS已经于11月28日开幕并将持续到12月9日。
近年来,中国人工智能研究的发展重塑了机器学习的格局。就NeurIPS的论文总数而言,中国现在一直是仅次于美国的第二大国家。
尽管中国是人工智能的强国,但该篇研究发现,从论文引用的情况来看,中美机构之间的合作比美国和西欧机构之间的合作更少。
作者还提到了一个有趣的传闻,据说在机器学习会议上各个国家也形成了不同的社会群体。中国的研究人员经常与欧洲和北美的研究人员在不同的小组中交谈和用餐,互相之间既不引用对方的论文,也不跟对方说话。
作者认为,这种分离不仅仅是社会交往。一位机器学习应用领域的著名非华裔教授还在Twitter上建议学生不要参加中国作者的演讲,认为这些演讲难以理解或质量不高。
随后,研究者通过论文互相引用的数据来说明了中美之前这种分离的具体情况。
研究收集了NeurIPS 2012年至2021年的所有论文标题,并将论文作者对应的机构和国家进行匹配,删除了跨国企业或实验室(如谷歌、Meta、微软、腾讯、阿里巴巴或华为)、AMiner (清华学术知识图谱)上没有作以及一些地区不明确或多个地区合作的论文。最后剩下1792篇论文,然后计算每个地区的论文的平均引用次数和比例。
中美论文互相引用数量很少,美国对中国论文的引用更少。
从统计的数据来看,每个地区都倾向于自我引用。然而,美国和中国研究界之间的分离比人们从典型的区域偏好中预期的更为明显。
美国的论文数占数据集的60%,但它们只占中国论文引用量的34%,欧洲的论文数量占总数的比例较少,中国对欧洲的引用也很少。相比之下,美国对中国的引用更少,尽管中国论文占总数的34%,但它们只占美国论文引用的9%,甚至少于美国对论文占比更少的欧洲的引用量。
美国和欧洲研究界有类似的引用行为,他们都对中国论文的引用很少,而中国机构对美国和欧洲论文的引用也比其他地区少。
该论文对于引文研究的缺陷也进行了说明,主要是考虑到现实情况更加复杂,包括中美在人工智能研究之间存在的联系与分化,过滤掉的大量论文数据使得研究样本不完整或存在遗漏等。
例如,一些美国实验室可能主要或完全由中国留学生组成。同样地,回国的中国留学生可能会给他们的母校和其他机构带来联系,种种情况都使得研究人员无法衡量这些学生在多大程度上改变了他们的引用模式:是重点引用国内的论文,还是继续广泛引用在美国的工作。另外,研究对跨国企业和实验室的过滤也可能导致样本数据的不完整。
研究课题对于互相引用存在影响。
在对论文引用情况进行归因分析时,该研究认为,在某种程度上,中美之间互相引用存在分离可以归因于对不同主题的兴趣,因为文化规范决定了研究的优先次序。
例如,中国在多目标跟踪领域很活跃,存在大规模的研究。即使是在中国流行的抽象主题或架构,在其他地区也未必能流行起来。同样,美国在FACCT等公平性会议上的代表人数较多,而中国的代表人数仍然有限。
因区域间缺乏交流而受到限制的不仅仅是研究课题。
论文提到,近年来,北美和欧洲就人工智能的伦理考虑进行对话并发表研究,然而,与来自中国的研究人员在这些议题上的接触仍然有限。
作者在结论的最后表示,两个社区之间的分离,对于研究人员个人、整个机器学习社区以及可能受人工智能影响的社会都有实际影响。而人工智能界已经很久没有就克服这一障碍进行讨论了。
论文全文链接:https://arxiv.org/pdf/2211.12424.pdf
往期回顾
继续阅读
阅读原文