通读 53000 篇论文后，AI 出版了一部锂电池学术著作

By 超神经

场景描述：在生成文本方面，AI 不仅能够生成小说，诗歌，还可以生成学术研究类的书籍。

关键词：文本生成聚类分析锂离子电池

第一本 AI 撰写的书籍出版了。

AI 在文本生成上越来越厉害。如果你有留意相关新闻，就知道 AI 曾经写过小说，写过诗歌，还能撰写新闻。现在它又跨出一大步——开始出书。

就在这个月， AI 撰写的第一本书籍面世，它由 Springer Nature 出版，书名为《锂离子电池：机器生成的前沿研究摘要》。

先不说这本书成色如何，它的内容绝对硬核，因为这是一本关于学术研究的书，从书名中就能感受到。这本书聚焦于锂离子电池的研究，内容是这个热门领域中大量研究论文摘录合集。

它的前言中这么写道：这本书展示了人工智能如何帮助科学家掌握最新的研究成果——算法已经能够遍览大量的文献，并选择出最重要的细节。

这本书究竟是怎么得到的呢？

「读遍」53000 篇论文著成此书

确切地说，AI 并不是这本书的作者而是一个编纂者。因为本书的内容并非 AI 完全「原创」，而是算法从最新的研究论文里，抓取了其中的优质论文信息，生成了精简的摘要合集。

而这项工作的背后，是 Springer Nature 与歌德大学的研究人员合作开发的 AI 算法，称之为 Beta Writer 。

本书前言中对生成该书的算法作了详细介绍

Beta Write 通过自动扫描，从近年的出版物中选出高质量的论文，在利用基于相似性的聚类分析方法，将大量的源文档提取为连贯的章节，最终创建出简要介绍，目录和参考资料等内容，并附上超链接，方便随时访问到原始论文。

这本书里最终选出了 2016 年到 2018 年里，发表的 150 多篇权威研究论文。这些论文都来自于 Springer Nature 的平台 SpringerLink ，都是经过同行评审后发布的文章。

「所以人工智能只会整理摘要？」也许有人会表示不屑。其实，这并不是想象中那么简单。

随着电子产品不断更新迭代，锂离子电池的研究也层出不穷，新发布的论文也日渐增多。在过去的 3 年里，关于锂离子电池的发布论文多达 53000 篇。想要从这些论文中，总结出优质的部分，并提供简明的指导，对科学家来说是一项艰难的任务。而这个算法，则能轻易从其中快速地抓住要点。

Springer Nature 的产品数据总监 Schoenenberger 说道，「这个 AI 算法，能加快一个领域内的文献消化速度，而不是让研究者们盲目地翻阅大量已发表的文章。」

正如我们之前在文章

《这项技术，能让设计师「只动手不动口」完成工作》

中提到的，AI 虽然学会了设计，但并不会取代设计师。同样，在这个项目中，AI 算法只是分担了一些重复且工作量巨大的苦差事，科研人员则能够花时间在更重要的研究上。

用算法探索内容生成新方式

事实上，对于这次出版的书，如果单从文学创作性上来讲，AI 所编纂的内容，距离生成类似「冰与火之歌」或者「哈利波特」的小说，还相去甚远。此外，在实际翻阅书籍时，也会发现一些不足，比如有存在乱码和句子不连贯的情况。

但从另一角度来讲，生成类似工具书的过程，并不要求太多花哨的东西。 AI 所使用的方式，依靠强大的分析和综合能力，在节省时间和精力的同时，也为出版行业提供了新的思路。

Schoenenberger 补充道：「我们很高兴最终发布这种新型研究内容，并将其提供给全球研究界。

毋庸置疑，研究人员撰写的研究论文和书籍，还将继续在科学出版中发挥最关键的作用，但我们预见未来学术出版中会有许多不同的内容类型：

从完全由人为创造的内容创作，到各种混合人机文本生成，以及完全由机器来生成文本。

这一次的尝试是我们达到的一个里程碑，编书这件事如果能通过 AI 技术解决，将会开启科学出版的新时代。」

未来除了写书还能？

Springer Nature 的目标不止于此，他们计划通过开发其他领域的类似工作，来扩展该这一试点项目的研究。而已经出版的锂离子电池研究书籍，将成为一系列尝试的第一步。

此外，Springer Nature 对于这本机器生成的书籍，也预期了明确的受众群体：研究人员，硕士和博士生，评论家，学术作家，图书管理员和科学教育决策者。

出版的形式包括电子书和印刷书籍。目前电子书已经能够免费得到。

电子书下载地址：

https://link.springer.com/content/pdf/10.1007%2F978-3-030-16800-1.pdf

对于 AI 能够在出版界能够走多远，也许现在还无法知晓。但从以往的例子或许能窥见一斑。

AI 早已能够写出小说，而微软小冰也在两年前就在华西都市报开设了专栏《小冰的诗》。对于 AI 写诗，有人赞赏有人质疑。质疑者认为「AI 永远写不好诗，因为诗是人类灵魂上的事」。而赞赏者认为「算法拥有人类无法企及的能力，AI 写诗只是在起步阶段，未来还会一直往前走」。

对于出版物来说，人们的态度也大抵如此。但这都不会阻碍 AI 在出版界的发展，毕竟算法拥有着无限可能。如果不考虑情感、语言生动性，让 AI 专注于一些教科书、工具书的撰写，在未来或许能够颠覆这一行业。

那么，你认为 AI 写书的技能，在未来还会有哪些发挥空间呢？

超神经百科

K – 均值聚类 K-Means Clustering

K – 均值聚类是源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法用于机器学习之中。

k-均值聚类的目的是：把 n 个点（可以是样本的一次观察或一个实例）划分到 k 个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为 Voronoi cells 的问题。

主要步骤：

一般用在对二维数据点进行聚类。

1）选择 K 个点作为初始质点；

2）重复步骤：

a. 将每个点派到最近的质心，形成 K 个簇；
b. 重新计算每个簇的质心；

3）直到簇不发生变化或者达到最大迭代次数。

优缺点

优点：k-means 算法是聚类问题的经典算法，该算法简单快速。对于大数据量的数据，有相对较高的算法效率，它的伸缩性很高，常常以局部最优来结束算法。当簇是密集的，圆形的，团状的，而且簇与簇之前的区别明显时，它的聚类效果较好。

缺点：要求用户必须事先给出要生成的簇的数目 k，这就好比世上先有鸡还是先有蛋的问题，这也是此算法无法避免的缺点。次算法对于初始值很敏感，对于不同的初始值，聚类的结果往往不同。对于噪声数据和孤立点数据非常敏感，少量的该数据能够对平均值产生巨大的影响。

历史文章（点击图片阅读）

让人工智能学会幽默，人机对话不尴尬

你即将看到的这篇文章也许是人工智能写的

LeCun 的小弟 Bengio 为啥能和前辈一起获得图灵奖？

AI 百科

教程

数据集

商店

http://hyper.ai

继续阅读

阅读原文