前面提个醒,想去医疗卫生系统工作?关注上面公众号“医卫招聘”,每天获取高薪医卫工作,千万别错过!

近日一个合法版的General Index带着1.07亿篇论文来了,还支持单词和短句索引! 
真是天大的好消息~
这一数据库可用于公共领域
近日,Reddit上有用户分享了General Index 的种子文件,提取了超过一亿篇(107233728)付费的期刊文章,可以通过搜索关键字和查找论文中的句子来进行索引。
据分享者表示,如果你有论文的DOI号的话,Sci Hub是不错的选择(不涉及版权问题),但是如果没有编号怎么办?
Public.Resource.org 的创始人兼通用索引的共同创建者Carl Malamud发布了一个36TiB 的数据库General Index,其中包含从1.07亿篇论文中提取的关键词和n-gram(短句)。
有了这个数据库,研究人员和开发人员将能够更轻松地启动大多数学术文献的搜索引擎或目录,或者进行无数的文本和数据挖掘(TDM)研究,而无需单独检索和处理所有原始全文文档。 
该数据库只包含事实和想法,因此不受版权保护,属于结构化公共领域。它附带了一个知识共享零(CC-0)许可证,以使受数据库权利约束的欧盟/欧洲经济区居民更清楚地了解这一状况。
另一方面,Carl Malamud最近赢得了美国最高法院对乔治亚州和爱思唯尔(Elsevier)的诉讼,再一次证实了企图封闭公共知识领域的人都是人民的敌人。
对于 Malamud 来说,可搜索的科学知识数据库是人类进步的关键。
他认为 General Index 是一个查找工具,一个知识词典,一个知识地图,一个现代科学实践的核心工具的工具,并且认为这是一项公用事业,并且它专用于公共领域。
科学的语言必须是免费的
Reddit 网友表示,这绝对是一个非常酷和有用的资源,可以帮助推动新项目,但应该注意的是,这似乎是一种试图将Sci中心语料库公开化的尝试,同时破坏了底层的人类可读PDF,因为他试图把pdf 进行文字化。
General Index 由大学和组织(如Academic Torrents和Archive.org)进行种子、托管和分发,因为它们可以使数据集合法化并将其纳入公共领域。
从技术上讲,公开分享付费的科学文章是违法的。因此多年来,一些政府一直试图关闭Sci-Hub。
不过Malamud 认为General Index具有足够的变革性,可以归入公共领域。
他们坚信,如果我们要改善我们的世界,科学是一种我们所有人都必须说的语言,而这种语言必须是免费的。
如何获取该数据库?
General Index数据库压缩后大小为 4.7 TiB。如此大规模的数据,通常很难通过HTTP的方式从互联网下载数据,特别是如果你不在服务器所在地美国的话。
所以目前的下载方式是通过重新做种。现在有一个种子盒,可以让下载速度非常快。
据创始人称,目前General Index 还是早期版本,更加通用的搜索功能还在开发中。并且在某些情况下,文本可能会提取失败,有时元数据不可用或可能不正确,而底层语料库很大,它并不完整且不是最新的。
参考资料:
https://www.vice.com/en/article/g5gz5y/archivists-create-a-searchable-index-of-107-million-science-articles
来源 | 新智元
编辑/审核:Andy

哪里查看最新科研成果报道?
关注“国际科学”公众号
关注公众号“国际科学”
获取国内外科学前沿新知
更多信息,请关注本号,回复以下关键词获取:学位论文 | 科研计划书 | 投稿经验 | NVivo | C刊核心 | 顶刊CNS | 科研奖项 | 论文排版 | 科研绘图 | 文书写作 | 考博申博 | 读博建议 | 高校求职 | 顶尖科学家| 知名院士 | 学界新秀 | 大学排名 | 学术排名 | 影响因子 | ESI排名 | 科学家创富 | 学术争端 | 学术不端 | 科研奇葩 | 学界丑闻 | 硕博清退 | 考研趋势 | 国外机会 | 硕博交友 | 趣味发现 | 
说明:本平台多数文章为原创或首发编译,或获授权转发。部分优选文章无法联系作者,若有不当,请及时联系我们处理。商务合作、开通专栏、发布成果、应聘求职、提出建议等可以后台回复“”获取本站编辑联系方式。
想读博/发论文?点下面阅读原文:
继续阅读
阅读原文