2019年1月19日,在由中国人工智能学会、字节跳动、清华大学联合主办的Byte Tech 2019 机器智能前沿论坛上,北京大学计算机学院万小军教授发表如下演讲:
为什么要做自然语言生成(NLG),之前我们接触比较多的是自然语言理解(NLU),即理解人类的语言,这是自然语言处理的重要目标。现在我们期望设备智能化,进一步实现机器与人的沟通,我们需要做的是进一步提高NLG技术,即自然语言生成技术,真正实现机器与人类的自然交互,提升机器的智能化水平。
令人狂热的自然语言生成(NLG)是什么技术?
NLG = National Language Generative,意指自然语言生成。在人类进化过程中自然形成的语言就是自然语言,所以地球上现存7000多种自然语言。但时至今日,“生成”二字的主语已经并非人类,而是计算机,我们期望通过技术实践,令计算机自己不仅学会理解人类的语言,更能主动生成语言,与人类的灵魂对话。
人工智能的技术边界
当前的主流人工智能技术是深度学习和机器学习,它们的基础原理都是数理统计,统计就意味着需要大量数据,规律才能显现出来,所以在没有数据存在的领域,人工智能无容身之处!
上述观点在一些抽象学科体现得尤为明显,例如,人文社科、历史文化、诗歌创作、文章写作、音乐美术等领域,即便高度智能,也不可能理解人类的文化与历史、人类的艺术与欣赏,不可能像人类一样创造美。
但是,这个观点在随着技术边界的移动发生了微妙的改变。因为在上述抽象学科里,也会有数据的存在,人类从古至今画出了无数的名画、写出了无数的诗歌、创作了大量的文章、还有着许多音乐,数不胜数。
有数据,就意味着有可能性……
从画画谈起……
美术是一个与世无争的领域,但深度学习的进入使画家产生了危机感,如下面两幅图所示。第一幅图是数码相机所拍摄的图片,而第二张图是一个深度学习模型经过学习,将原图变成了《星空》的风格。这样的任务的实现,甚至已经简单到只需要一段代码。我会在之后的文章里专门写一篇如何实现这一技术,即便你不是计算机专业,也可以轻松学会创作。所以说,美术创作,这个领域,人工智能已经进来了。而且是很轻松地进来了。
但是,人工智能只会是一个象征,告诉人类他的能力有多强,这些技术最多只会留在科学史上,不会进入我们的生活。因为,这样的画画技术是没有商业价值的,一副没有情感的图片不值得被人类铭记。但是,如果这样的技术有了商业价值呢……
人工智能凭什么攻占自媒体
自媒体行业有大量的写手,他们是平台的内容创作者,但是如果他们的内容创作可以被计算机代替呢?这是有着巨大的经济利益驱动的。所以说,人工智能将会凭借以下两点,脱颖而出。
第一点,行业有数据。仅仅是网上一天时间产生的新闻数量,足够一个成年人读上一百年的。这么庞大的数据量,人工智能算法一旦进入这个行业,随便学习一下,岂不是就会学习到大量的写作规律吗?如果把这些规律应用到新的创作中去呢?将是潜力无穷!第二点,算法很给力。随着当前研究的不断深入,利用深度学习算法学习的效果日益加强,而且就在前不久,谷歌开源了BERT模型,这几乎全面拉动了NLP、NLG领域的发展。而且,我们有足够的理由相信,这些技术依旧在不断发展。NLG将以何种形态存在于自媒体行业
当计算机可以通过文本,读懂这个世界发生的一切,一组服务器运行着爬虫程序把粗糙的、没有经过加工的信息交给智能的计算机处理系统,它就会自动进行处理,输出句式优美的文本,人类做的更多的是检查工作。
视频、音频转为新闻:几百台服务器组成的计算机系统,将会无时无刻盯着网上发生的一切,端详着某个网红的直播、听着邓紫棋的新歌、看着特朗普的演说,并把这些写作成新闻发送给人类进行检查,人工检查无误后会快速发送到自己的平台,各大新闻平台,比的不再是谁的记者跑得快,谁的电脑运行快。新闻再生成:每当一个大新闻出来时,一般每家新闻社看问题的视角都不相同,那么,将针对同一事件的相关新闻综合到一起,交给计算机,它会采纳百家之长,输出一篇无懈可击,十分全面的文章。那么,如今的自媒体工作者在干什么呢?各大新闻平台似乎已经不再需要蹭热点的工作者了,大部分的热点新闻,都会在计算机系统上自动生成。自媒体工作者的就业市场势必会大大减少,计算机读过的文章是你的几十万倍,比你更懂得怎么做一个合格的标题党。
那么,我说的会成真吗?作为一个人工智能工作者,我们期待着技术的发展!事实上也是这样的。
早在2015年11月7日,在新华社84岁生日之际,就已经引进了一位新助手,这位新同事就是快笔小新,当时就已经初步具备了健全的“写稿”和分类能力。时至今日,人工智能技术已经发展了快过一代了,学界产生了大量更前沿的技术,做出了许多更接杰出的成就。所以,我坚信,各大搜索引擎、各大电商、各大自媒体平台会推出越来越多的“快笔小新”。
继续阅读
阅读原文