ACL2023 | 如何解读论文评分中的扎实性和兴奋度

来自：HFL实验室

进NLP群—>加入NLP交流群

计算语言学顶级国际会议ACL 2023目前进入到作者回复环节（author response）。与以往会议不同的是，今年的评分结果并没有统一的“overall recommendation”，而是分离成“扎实性（soundness）”和“兴奋度（excitement）”两项评分。为了消除对于今年新的评分机制感到困惑，ACL 2023最新博客给出了相关评分机制的解读。

原文：ACL 2023 Acceptance Recommendation

作者：ACL 2023 Program Chairs

地址：https://2023.aclweb.org/blog/overall-recommendation/

•••

本期的主要内容和结论（如果你没时间看细节）：

1、ACL 2023尝试了一种新的论文评分系统，将“扎实性”与“兴奋度”分开，取代了以往的“overall recommendation”。2、“扎实性”分数更重要，关注研究的科学性；“兴奋度”分数则关注审稿人的个人兴趣和偏好。3、新评分系统并非简单地映射到录用与否，但可以为大会主席提供更多信息来做出决策。4、在作者回应期，建议作者关注扎实性方面的问题（而不是兴奋度），因为这更有可能通过澄清得到改善。5、ACL 2023引入了一项新功能，让作者可以为主席标记审稿人的严重问题。

•••

关于对往届会议的一个常见抱怨是，一些扎实的工作因为审稿人相当主观的观点，例如论文不是那么“令人惊讶”、“新颖”、“太小众”等原因被拒绝。由于往届会议中只存在单一的“recommendation score”，所以这种问题很难解决，因为这些审稿人的主观偏好与论文其他方面的评价耦合在一起。

ACL 2023正在尝试一种替代的论文评分系统。我们明确地询问审稿人，论文是否呈现了扎实的研究，以及他们个人觉得论文是否令人兴奋。只要审稿人有足够的专业知识，前一个标准可以被更客观地估计。后者不可避免地更加主观，并可能反映审稿人自己的研究议程、对新颖性的认知、对他们自己或其子研究社区的潜在效用等难以剥离的因素。您可以在以下链接查看完整的审稿表格及其评分标准：https://2023.aclweb.org/blog/review-form/#overall-recommendation

将论文的“扎实性”（soundness）和“兴奋度”（excitement）进行分离的优点如下：

审稿人应该能够通过摆脱自己的研究兴趣和偏好，提供更准确的扎实性估计；
审稿人的工作变得更容易（尤其是对于新审稿人，他们可能对*ACL期望录用什么样的论文并没有明确的概念，所以可能很难做出这个决定）；
作者从审稿中获得更多可操作的信息：例如，扎实性得分为“2”，兴奋度得分为“4”，而不是总分“3”，你知道你需要修改和重新提交，反之则说明你没有找到与你兴趣相投的审稿人；
作者可以将回应集中在扎实性上（在这里可以进行合理的论证），而不是兴奋度（试图说服审稿人他们的研究品位是错误的可能不会非常富有成效）；
大会主席在组织会议程序和策划会议环节时将有更多的信息可参考；
通过将这些分数与论文类型相关联，我们可以了解领域内的隐性和显性规范以及态度，以改进同行评审过程。

我们在社交媒体上看到的一个抱怨是，旧的“overall recommendation”制度更容易让人了解论文是否会被录用，而在这里他们没有看到这样一个简单的映射关系。然而，即使是常规的“overall recommendation”也只能对少数得分最高或最低的论文产生比较可信的参考度。评分位于中间的论文，主席们会根据完整的审稿文本、考虑审稿人的置信度和专业知识等来行使酌情权。在我们的情况下（也就是今年）也是如此，只不过主席们有更多的信息可以参考。我们希望这些信息将帮助主席们得出更好的录用决定。

让我们更深入地了解一下：

两个分数都不能与传统的“overall recommendation”分数功能上等同（不幸的是，softconf在审稿报告中只能显示一个分数的统计数据，但这并不意味着它与旧分数相同）；
“扎实性”分数更重要：不科学的论文不应该被发表。这源于我们的征稿通知和常识。（一些审稿人看到早期突出兴奋度分数而忽略扎实性分数的审稿报告，认为兴奋度对于接受/拒绝决策更为关键；这显然不是这样的。这只是Softconf适应新审稿标准的一个问题，现在已经修复。）
“兴奋度”分数有助于决策者更好地理解审查。在使用单一推荐分数的会议中，对于得分居中的论文很难做出决定。在ACL'23中，如果这样一篇论文在扎实性上得分高，但兴奋度低，那么很明显，它应该被某个会议/期刊接受。如果扎实性分数都很低，但一些审稿人感到兴奋，这可能意味着论文是个好主意，但需要进一步发展。话虽如此，在任何会议中，主席们都可以根据对领域的高层次理解和编辑优先事项行使酌情权。他们还可以降低或抛弃存在严重问题、审稿人置信度较低等的审稿意见。

作者回应期（author response）的主要目的始终是澄清误解并提高审稿的准确性。在我们的情况下也是如此。我们建议关注扎实性，因为实际上这个分数更有可能通过澄清而得到改善，而不是“这项研究并不令人惊讶”之类的评论。话虽如此，作者当然可以根据自己的意愿回应审稿人提出的任何问题。ACL'23的一个新的质量保证步骤是作者可以按类型为主席标记审稿中的严重问题。具体类型请参考以下文章中的问题⑤：https://2023.aclweb.org/blog/review-acl23

我们认识到这项举措是新颖和不同的。这是一项实验。因此，为了帮助大家更好地了解正在发生的事情，我们在下面分享了“兴奋度”和“扎实性”分数的分布。如图所示，大多数提交的论文都处于分布的中间，就像常规的单一评分过程一样。

ACL 2023 “兴奋度”和“扎实性”分数的分布（rebuttal前）

求职/进NLP群—>加入NLP交流群

知识星球：NLP学术交流与求职群

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球，你将获得：

1. 最新最优质的论文速读。用几秒钟就可掌握论文大致内容，包含论文一句话总结、大致内容、研究方向以及pdf下载等。

2. 最新入门和进阶学习资料。包含机器学习、深度学习、NLP等领域。

3. 具体细分NLP方向包括不限于：情感分析、关系抽取、知识图谱、句法分析、语义分析、机器翻译、人机对话、文本生成、命名实体识别、指代消解、大语言模型、零样本学习、小样本学习、代码生成、多模态、知识蒸馏、模型压缩、AIGC、PyTorch、TensorFlow等细方向。

4. NLP、搜广推、CV等AI岗位招聘信息。可安排模拟面试。

继续阅读

阅读原文