技术的向往是智能膨胀，所以你们的自媒体终将凋亡

2019年1月19日，在由中国人工智能学会、字节跳动、清华大学联合主办的Byte Tech 2019 机器智能前沿论坛上，北京大学计算机学院万小军教授发表如下演讲：

为什么要做自然语言生成（NLG），之前我们接触比较多的是自然语言理解（NLU），即理解人类的语言，这是自然语言处理的重要目标。现在我们期望设备智能化，进一步实现机器与人的沟通，我们需要做的是进一步提高NLG技术，即自然语言生成技术，真正实现机器与人类的自然交互，提升机器的智能化水平。

令人狂热的自然语言生成（NLG）是什么技术？

NLG = National Language Generative，意指自然语言生成。在人类进化过程中自然形成的语言就是自然语言，所以地球上现存7000多种自然语言。但时至今日，“生成”二字的主语已经并非人类，而是计算机，我们期望通过技术实践，令计算机自己不仅学会理解人类的语言，更能主动生成语言，与人类的灵魂对话。

人工智能的技术边界

当前的主流人工智能技术是深度学习和机器学习，它们的基础原理都是数理统计，统计就意味着需要大量数据，规律才能显现出来，所以在没有数据存在的领域，人工智能无容身之处！

上述观点在一些抽象学科体现得尤为明显，例如，人文社科、历史文化、诗歌创作、文章写作、音乐美术等领域，即便高度智能，也不可能理解人类的文化与历史、人类的艺术与欣赏，不可能像人类一样创造美。

但是，这个观点在随着技术边界的移动发生了微妙的改变。因为在上述抽象学科里，也会有数据的存在，人类从古至今画出了无数的名画、写出了无数的诗歌、创作了大量的文章、还有着许多音乐，数不胜数。

有数据，就意味着有可能性……

从画画谈起……

美术是一个与世无争的领域，但深度学习的进入使画家产生了危机感，如下面两幅图所示。第一幅图是数码相机所拍摄的图片，而第二张图是一个深度学习模型经过学习，将原图变成了《星空》的风格。这样的任务的实现，甚至已经简单到只需要一段代码。我会在之后的文章里专门写一篇如何实现这一技术，即便你不是计算机专业，也可以轻松学会创作。所以说，美术创作，这个领域，人工智能已经进来了。而且是很轻松地进来了。

但是，人工智能只会是一个象征，告诉人类他的能力有多强，这些技术最多只会留在科学史上，不会进入我们的生活。因为，这样的画画技术是没有商业价值的，一副没有情感的图片不值得被人类铭记。但是，如果这样的技术有了商业价值呢……

人工智能凭什么攻占自媒体

自媒体行业有大量的写手，他们是平台的内容创作者，但是如果他们的内容创作可以被计算机代替呢？这是有着巨大的经济利益驱动的。所以说，人工智能将会凭借以下两点，脱颖而出。

第一点，行业有数据。仅仅是网上一天时间产生的新闻数量，足够一个成年人读上一百年的。这么庞大的数据量，人工智能算法一旦进入这个行业，随便学习一下，岂不是就会学习到大量的写作规律吗？如果把这些规律应用到新的创作中去呢？将是潜力无穷！第二点，算法很给力。随着当前研究的不断深入，利用深度学习算法学习的效果日益加强，而且就在前不久，谷歌开源了BERT模型，这几乎全面拉动了NLP、NLG领域的发展。而且，我们有足够的理由相信，这些技术依旧在不断发展。NLG将以何种形态存在于自媒体行业

当计算机可以通过文本，读懂这个世界发生的一切，一组服务器运行着爬虫程序把粗糙的、没有经过加工的信息交给智能的计算机处理系统，它就会自动进行处理，输出句式优美的文本，人类做的更多的是检查工作。

视频、音频转为新闻：几百台服务器组成的计算机系统，将会无时无刻盯着网上发生的一切，端详着某个网红的直播、听着邓紫棋的新歌、看着特朗普的演说，并把这些写作成新闻发送给人类进行检查，人工检查无误后会快速发送到自己的平台，各大新闻平台，比的不再是谁的记者跑得快，谁的电脑运行快。新闻再生成：每当一个大新闻出来时，一般每家新闻社看问题的视角都不相同，那么，将针对同一事件的相关新闻综合到一起，交给计算机，它会采纳百家之长，输出一篇无懈可击，十分全面的文章。那么，如今的自媒体工作者在干什么呢？各大新闻平台似乎已经不再需要蹭热点的工作者了，大部分的热点新闻，都会在计算机系统上自动生成。自媒体工作者的就业市场势必会大大减少，计算机读过的文章是你的几十万倍，比你更懂得怎么做一个合格的标题党。

那么，我说的会成真吗？作为一个人工智能工作者，我们期待着技术的发展！事实上也是这样的。

早在2015年11月7日，在新华社84岁生日之际，就已经引进了一位新助手，这位新同事就是快笔小新，当时就已经初步具备了健全的“写稿”和分类能力。时至今日，人工智能技术已经发展了快过一代了，学界产生了大量更前沿的技术，做出了许多更接杰出的成就。所以，我坚信，各大搜索引擎、各大电商、各大自媒体平台会推出越来越多的“快笔小新”。

继续阅读

阅读原文