By 超神经
场景描述:在生成文本方面,AI 不仅能够生成小说,诗歌,还可以生成学术研究类的书籍。
关键词:文本生成 聚类分析 锂离子电池
第一本 AI 撰写的书籍出版了。
AI 在文本生成上越来越厉害。如果你有留意相关新闻,就知道 AI 曾经写过小说,写过诗歌,还能撰写新闻。现在它又跨出一大步——开始出书。 
就在这个月, AI 撰写的第一本书籍面世,它由 Springer Nature 出版,书名为《锂离子电池:机器生成的前沿研究摘要》
先不说这本书成色如何,它的内容绝对硬核,因为这是一本关于学术研究的书,从书名中就能感受到。这本书聚焦于锂离子电池的研究,内容是这个热门领域中大量研究论文摘录合集。 
它的前言中这么写道:这本书展示了人工智能如何帮助科学家掌握最新的研究成果——算法已经能够遍览大量的文献,并选择出最重要的细节。
这本书究竟是怎么得到的呢? 
「读遍」53000 篇论文著成此书 
确切地说,AI 并不是这本书的作者而是一个编纂者。因为本书的内容并非 AI 完全「原创」,而是算法从最新的研究论文里,抓取了其中的优质论文信息,生成了精简的摘要合集。 
而这项工作的背后,是 Springer Nature 与歌德大学的研究人员合作开发的 AI 算法,称之为 Beta Writer
本书前言中对生成该书的算法作了详细介绍
Beta Write 通过自动扫描,从近年的出版物中选出高质量的论文,在利用基于相似性的聚类分析方法,将大量的源文档提取为连贯的章节,最终创建出简要介绍,目录和参考资料等内容,并附上超链接,方便随时访问到原始论文。
这本书里最终选出了 2016 年到 2018 年里,发表的 150 多篇权威研究论文。这些论文都来自于 Springer Nature  的平台 SpringerLink ,都是经过同行评审后发布的文章 。  
「所以人工智能只会整理摘要?」也许有人会表示不屑。其实,这并不是想象中那么简单。
随着电子产品不断更新迭代,锂离子电池的研究也层出不穷,新发布的论文也日渐增多。在过去的 3 年里,关于锂离子电池的发布论文多达 53000 篇。想要从这些论文中,总结出优质的部分,并提供简明的指导,对科学家来说是一项艰难的任务。而这个算法,则能轻易从其中快速地抓住要点。
Springer Nature 的产品数据总监 Schoenenberger  说道,「这个 AI 算法,能加快一个领域内的文献消化速度,而不是让研究者们盲目地翻阅大量已发表的文章。
正如我们之前在文章
《这项技术,能让设计师「只动手不动口」完成工作》
中提到的,AI 虽然学会了设计,但并不会取代设计师。同样,在这个项目中,AI 算法只是分担了一些重复且工作量巨大的苦差事,科研人员则能够花时间在更重要的研究上。

 用算法探索内容生成新方式
事实上,对于这次出版的书,如果单从文学创作性上来讲,AI 所编纂的内容,距离生成类似「冰与火之歌」或者「哈利波特」的小说,还相去甚远。此外,在实际翻阅书籍时,也会发现一些不足,比如有存在乱码和句子不连贯的情况。 
但从另一角度来讲,生成类似工具书的过程,并不要求太多花哨的东西。 AI 所使用的方式,依靠强大的分析和综合能力,在节省时间和精力的同时,也为出版行业提供了新的思路。
Schoenenberger 补充道:「我们很高兴最终发布这种新型研究内容,并将其提供给全球研究界。
毋庸置疑,研究人员撰写的研究论文和书籍,还将继续在科学出版中发挥最关键的作用,但我们预见未来学术出版中会有许多不同的内容类型:
从完全由人为创造的内容创作,到各种混合人机文本生成,以及完全由机器来生成文本。
这一次的尝试是我们达到的一个里程碑,编书这件事如果能通过 AI 技术解决,将会开启科学出版的新时代。」 
未来除了写书还能? 
Springer Nature 的目标不止于此,他们计划通过开发其他领域的类似工作,来扩展该这一试点项目的研究。而已经出版的锂离子电池研究书籍,将成为一系列尝试的第一步。 
此外,Springer Nature 对于这本机器生成的书籍,也预期了明确的受众群体:研究人员,硕士和博士生,评论家,学术作家,图书管理员和科学教育决策者。
出版的形式包括电子书和印刷书籍。目前电子书已经能够免费得到。 
电子书下载地址:
https://link.springer.com/content/pdf/10.1007%2F978-3-030-16800-1.pdf
对于 AI 能够在出版界能够走多远,也许现在还无法知晓。但从以往的例子或许能窥见一斑。
AI 早已能够写出小说,而微软小冰也在两年前就在华西都市报开设了专栏《小冰的诗》。对于 AI 写诗,有人赞赏有人质疑。质疑者认为「AI 永远写不好诗,因为诗是人类灵魂上的事」。而赞赏者认为「算法拥有人类无法企及的能力,AI 写诗只是在起步阶段,未来还会一直往前走」。
对于出版物来说,人们的态度也大抵如此。 但这都不会阻碍 AI 在出版界的发展,毕竟算法拥有着无限可能。 如果不考虑情感、语言生动性,让 AI 专注于一些教科书、工具书的撰写,在未来或许能够颠覆这一行业。
那么,你认为 AI 写书的技能,在未来还会有哪些发挥空间呢?
超神经百科
K – 均值聚类 K-Means Clustering
K – 均值聚类是源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法用于机器学习之中。
k-均值聚类的目的是:把 n 个点(可以是样本的一次观察或一个实例)划分到 k 个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为 Voronoi cells 的问题。
主要步骤:
一般用在对二维数据点进行聚类。
1)选择 K 个点作为初始质点;
2)重复步骤:

a. 将每个点派到最近的质心,形成 K 个簇;
b. 重新计算每个簇的质心;
3)直到簇不发生变化或者达到最大迭代次数。
优缺点
优点:k-means 算法是聚类问题的经典算法,该算法简单快速。对于大数据量的数据,有相对较高的算法效率,它的伸缩性很高,常常以局部最优来结束算法。当簇是密集的,圆形的,团状的,而且簇与簇之前的区别明显时,它的聚类效果较好。
缺点:要求用户必须事先给出要生成的簇的数目 k,这就好比世上先有鸡还是先有蛋的问题,这也是此算法无法避免的缺点。次算法对于初始值很敏感,对于不同的初始值,聚类的结果往往不同。对于噪声数据和孤立点数据非常敏感,少量的该数据能够对平均值产生巨大的影响。
历史文章(点击图片阅读)
让人工智能学会幽默,人机对话不尴尬
你即将看到的这篇文章也许是人工智能写的
LeCun 的小弟 Bengio 为啥能和前辈一起获得图灵奖?
AI 百科
教程
数据集
商店
更多
http://hyper.ai
继续阅读
阅读原文