不仅仅是代码链接：arXiv联手Papers with Code，推出两项新功能

作者 | 青暮

据官方推特消息，Papers With Code联合arXiv推出了代码链接功能，以后在上传arXiv论文的时候，就能顺便提交代码，不需要在论文里默默地加上链接，然后被忽略啦！

新功能用法

Papers With Code近期与arXiv建立了合作伙伴关系，以支持arXiv上的代码链接。arXiv上的机器学习文章现在有了一个“代码”选项卡，用于将官方代码和社区代码与论文链接起来，如下图所示：

图注：arXiv论文的新代码选项卡，由Papers with Code提供支持。

图注：官方代码和社区代码均来自Papers with Code。

具体来说，论文作者可以通过转至arxiv.org/user，并单击带有“Papers With Code”图标的“Link to code”（如下图所示），以将正式代码添加到arXiv论文中。

点击该图标将定向到Papers With Code，然后作者就可以添加代码。一旦添加了官方实现，官方代码部分将显示在arXiv文章页面上。如果存在的话，还会包含其它社区实现的链接。而在用户请求下，可以永久删除与该用户连接的其他数据。

结构化搜索的典范

Papers with Code 于 2018 年 7 月建立，初衷是帮助机器学习爱好者追踪最新的论文及源代码，快速了解最前沿的技术进展，创立者是剑桥大学的两位高材生Robert Stojnic和Ross Taylor。

该网站涉及了多种机器学习任务，包括计算机视觉、自然语言处理、医疗、方法论、语音、游戏、图、时序、音频、机器人、音乐、推理、计算机代码、知识库、对抗等。

Papers with Code将 arXiv 上最新的机器学习论文与 GitHub 上的代码对应起来，让用户可以按标题关键词查询，或者按流行程度、GitHub 收藏数、当前最优排列论文。所以，arXiv的新功能无非是把Papers with Code的部分原有功能植入了arXiv。

截至2019年12月，Papers with Code 已经累积了 18000 篇论文、1000 项任务和 1500 个排行榜，成为最常用的机器学习资源网站之一。此时，Papers with Code 已并入 Facebook AI ，但其仍然保持平台独立性。

在开发结构化搜索上，Papers with Code可谓不遗余力。今年五月份Papers with Code发布了重大更新，当时他们已经拥有2500多个排行榜和20,000多个结果，并且利用他们的结果提取方法，排行榜中的实验结果可以直接链接到arXiv论文中的表格。

图注：表格结果提取流程。

今年7月，Papers with Code又发布了提取论文模型方法的新功能，方法页面提供了论文的有关方法、架构、相关论文、涉及任务、随时间变化的使用趋势以及该方法所依赖的子组件。其中子组件涉及730多种机器学习的构建基块：优化器、激活、注意层、卷积等。以下是MobileNetV2的示例。

有关方法、架构：

相关论文：

涉及任务：

随时间变化的使用趋势：

该方法所依赖的子组件：

茫茫沧海寻一栗

arXiv是一个收集了物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站，始建于1991年8月14日。截至2008年10月，arXiv.org已收集超过50万篇预印本；至2014年底，其藏量达到1百万篇。截至2016年10月，提交率已达每月超过10,000篇。

今年8月，arXiv则集成了170万篇arXiv预印本，托管到了Kaggle上供用户免费使用，数据库包括论文标题、作者、类别、摘要、全文pdf等论文相关信息。

arXiv论文信息的可发现率低一直是个困扰用户的主要问题。arXiv网站所收录的论文数量十分庞大，为用户的阅读带来明显的压力。这是由于过分依赖 LaTex 而出现的缺陷，此外还包括使用门槛高、pdf格式不支持在线编辑、论文与数据互相独立等缺陷。

而可发现率低则很可能会导致读者忽略一些重要的发现、关联知识、创新工具或视角。

但是看得出来，arXiv正在通过合作关系，比如Papers with Code和Kaggle，为改善该资料库的可读性以及可编辑性、令其更加结构化而努力着。

不仅仅是代码链接

这个在arXiv页面显示代码的新功能是由Papers with Code开发的。Papers with Code表示，他们的目标是“通过使研究更易于掌握、使用和扩展来加速科学进步。” 在arXiv上显示代码可以使研究人员更容易地基于最新的机器学习研究进行开发。

Papers with Code还希望这项行动对机器学习之外的计算科学社区产生连锁反应，并表示他们将继续探索新的工具来解决机器学习中的问题，例如可再现性和信息过载。

arXiv则表示，他们重视用户数据的开放性、社区性和隐私性，并且仅与遵守相同原则的合作伙伴合作。

与所有第三方合作者一样，Papers with Code只能访问有关arXiv用户的最少和匿名数据，并且仅用于确保arXivLabs功能的正确运行，并严格禁止arXiv书面同意中未包括的任何其他用途。

Papers with Code和arXiv的此次合作成果不仅仅是提供代码链接功能，Papers with Code还为arXiv开发了新分类算法。

论文作者在arXiv上提交论文时，机器学习分类器会自动使用论文的标题和摘要作为输入，将研究文章与现有的arXiv类别进行匹配。如果模型找到的类别与作者选择的类别不同，它将提出推荐的类别。作者可以接受新类别推荐，也可以忽略。

算法的开发人员是arXiv的忠实读者，他们尝试了几种方法，最终使用了两个开源模型ULMFiT和fastText，它们分别进行了160万份摘要和12万篇论文全文的训练，并结合了数据分层方法（解决大型类别不平衡）。

分类器GitHub地址：https://github.com/arXiv/arxiv-classifier

我们可以期待，在未来在arXiv上能看到更多的惊喜，可能是Papers With Code已有功能的植入，也可能是基于arXiv存量优势的意想不到的全新功能。

arXiv表示鼓励合作，如果你有什么改善arXiv的好想法，也可以通过[email protected]联系官方。

NeurIPS 2020论文接收列表已出，欢迎大家投稿让更多的人了解你们的工作~

点击阅读原文，直达NeurIPS小组~

继续阅读

关键词

论文

机器学习

作者

数据

结果