学术评价的Leiden宣言

【导读】科研和管理人员越来越痴迷于影响因子等数据指标。基于此，Diana Hicks, Paul Wouters, Ludo Waltman, Sarah de Rijcke 和Ismael Rafols 等一批著名学者在Nature联合发表关于学术评价的Leiden宣言，呼吁对学术评价体系进行改革。【知社学术圈】对此进行编译发布，供大家参考和讨论。

如今，学术评价越来越倾向于用数据说话。以往的同行评议如今已经被各种数据指标取代，而缺乏评价者主观能动的判断。数据本来可以帮助提升学术评价体系，而现在的评价却越来越多地只看数据指标，而且往往由一些不具备实践和理解能力的机构实施，这一趋势极有可能破坏学术评价系统。

2000年前，对学术成果的专业分析依赖于美国科学信息研究所（ISI）创办的《科学引文索引（SCI）》。2002年，汤森路透开发了一个大型线上综合性数据库 - Web of Science，在世界范围内得到广泛应用。2005年，Jorge Hirsch提出h因子，以引用次数衡量科学家个人的学术成就，短短几年风靡全球。事实上，自1995年起人们对期刊影响因子的关注和热情就持续增长。

作为科学计量学家、社会科学家及科研管理者，我们日益警醒地看到对学术成果的评价普遍存在滥用指标的现象。全球各地的大学都痴迷于自己的世界排名，尽管那些排行榜在我们看来，往往是基于不准确的数据和任意的指标。

一些雇主已经开始对应聘者的h因子提出要求。有些大学为职称设定门槛，包括h因子以及在高影响力期刊上发表的文章数。研究者也常常在简历上炫耀这些指标，尤其在生物医学领域。无论在哪里，导师都要求博士生在高影响力期刊上发表文章，以获取更多的科研经费。在斯堪的纳维亚和中国，很多大学都根据特定指标来分配科研经费和奖励。

基于此，我们提出Leiden宣言（以讨论宣言的会议所在地命名；知社学术圈）。在指标化的学术评价体系上，我们取其精华，总结出最佳方法，以便研究者能够问责评估者，而评估者能够有可靠的指标以依赖。

学术评价十大原则

1）定量评价应该辅助定性及同行评议。定量指标可避免同行评议的偏见。这将提升同行评议，因为如果缺乏一定范围内的相关信息，要对同行做出公正评价是一件非常困难的事。然而，评估者切记不要被数字所左右。数字指标绝不能替代基于信息的主观判断，个人应对其评估负责。

2）根据机构、项目组或研究者的科研任务来衡量其成果。项目初始阶段就应明确各项目标，衡量指标应与这些目标紧密联系。指标的选择及其运用，应置于社会经济及文化的大背景下。科学家们有不同的科研任务。开拓学术新领域的研究与解决社会实际问题的工作目标截然不同，评审也应该有区别。放之四海兼准的单一的评价体制是不存在的。

3）保护地域性的高水准研究。世界很多地区的研究成果评价基于英文期刊论文。例如，西班牙政策引导学者在高影响因子期刊上发表文章。影响力因子源于美国，并且如今仍然主要通过英文文献计算。这些偏见在社会科学和人类学领域尤为凸显，因为该领域的研究带有强烈的地域和民族色彩。然而，多样性和地域性被英文期刊的统一标准所压制，研究者们通常需要迎合那些高影响力期刊的口味，以获取高的影响因子。鉴于此，应当建立基于高质量的非英文文献的衡量指标，以肯定和奖励与地域相关的卓越研究。

4）数据收集和分析过程应当开放、透明、简要。评价体制的数据库构建应当遵从明确的规则，并先于评价完成。这是几十年来建立起来的文献计量评价方法的标准惯例。透明催生审慎，近年来兴起的商业学术评价系统也应当遵循同样的标准。没有谁会接受黑盒测试机制。

5）允许被评价者核实数据和分析。为保证数据质量，所有被评价的研究者应当有权核查其科研数据指标是否计算准确。任何指导和管理评价过程的人员应确保数据的准确性，无论是通过自我核实还是第三方审计。大学应当在科研管理信息系统中采用此种方法，并且该方法应当成为挑选评价系统供应商的指导原则。

6) 考虑不同领域发表及引用情况的差异。最佳方式是选出一系列可能的指标，让各领域学者自己选择。引用率随不同领域而差异巨大：数学领域顶级期刊的影响因子大约为3；而细胞生物学顶级期刊的影响因子约为30。标准化指标是需要的，而最稳健的标准化方法是基于百分位数：每篇文章以其所占相关研究领域引文分布的百分位数来衡量。（例如：前1%，10%或20%；知社学术圈）

7）对研究者个人的评价应基于综合定性分析。年龄因素：年龄越大，h因子越高，即便后来没有新的论文产生；领域差异：各领域h因子差异明显：生命科学家最高的可以达到200，物理学家为100，而社会科学家通常在20-30之间。该因子也因数据库不同而不同。审阅并评价研究者的工作本身远比依赖于某一数字更为靠谱。即便在比较大量研究者时，也应该更多考虑个人专业技能、经验、活动及影响等因素。

8）避免主体错置和虚假精确。科学评价指标往往具有模糊性和不确定性。因此，最佳方法是采用多种指标展现更具活力、多元化的图景。期刊影响因子精确到小数点后三位。然而，由于被引频次的随机变化，区分期刊间影响因子如此微弱的差距显得毫无意义。避免虚假精确：一位小数足矣。

9）认识评价指标的系统性效应。评价指标会通过其建立的激励机制而改变整个系统。这些效应是可预见的，因此一系列的综合指标比单一指标更为可取。单一指标有可能引发目标置换，使得衡量标准转变为目标。例如，20世纪90年代，澳大利亚根据研究机构发表的论文数量提供科研经费。不出所料，澳大利亚研究者的论文数量上去了，但是集中在一些低引用率的期刊，显示着文章质量的下降。

10）定期审查并更新指标。科研任务以及评价目标不断变化，科研系统自身不断演变。因此，曾经有价值的指标终会显出不足，新的指标进而产生。评价指标系统理应被重新审视并有所改进。

下一步

遵循以上十大原则，学术评价将在科学及社会进步中发挥重要的作用。数据指标能够提供个人学术成果的关键信息。然而这种量化的信息仅仅是一种评价工具，切勿将之视为科研的目标。将强大的统计数据与对科研目的和本质的敏锐捕捉相结合，会产生最好的决策。定量和定性的依据都是需要的，学术评议必须通过两者的高质量结合来实现。

【知社学术圈】是由一批海归学者发起的公益学术交流平台，旨在分享学术信息，整合学术资源，加强学术交流，促进学术进步。我们欢迎各领域学者来函来稿交流合作([email protected])，欢迎无删改的转载与分享。机构公共号分享，请知会微信ID scholarset。

继续阅读

阅读原文