二十一世纪计算 | 洪小文：帮助机器和人类共同学习

编者按：我们惊叹于机器人可以写诗做赋，“读心术”、“识人术”顺手拈来；我们也为很多技术突破而躁动，无论是语音识别还是卷积神经网络。在人类和机器的共同学习过程中，我们已经可以清楚感知到，人工智能和人类智能都在继续向前发展。

本文是第十九届“二十一世纪的计算”大会精选系列的第一篇，微软亚洲研究院院长洪小文博士立足于学习的命题，分别从机器和人类的角度探讨未来双方互助学习的可能性。更多大会嘉宾演讲内容及演讲视频将于近期陆续上线，敬请期待。

微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士

（以下为洪小文博士分享的精简版文字整理）

人类最了不起的地方在于我们知道怎样去学习。韩愈在《师说》中认为老师这个角色有三种不同的功能：“师者，所以传道受业解惑也”，其中最重要的就是传道。学生得到这个道以后就可以自己去学习，甚至可以终身学习。

心理学领域中有一本书叫做《Growth Mindset》，基本上它把人的自我分成两种，一种叫做fixmindset，另一种叫做growth mindset。前者有点像 know it all，我永远都是第一名，无所不知、无所不晓；后者强调的是learn it all，就算我不是第一名也没有关系，虽然我不能事事精通，但是我可以在学习过程中成长。这和今天的演讲也非常有关，就是讲学习的重要性。我的演讲分成两部分，我们怎么帮助机器学习，机器怎么帮助人类学习。学习的重要性不言而喻，无论是对机器还是人类来说，学习都是一门必修课。机器学习可以说是人工智能的重头戏，无论是深度学习、强化学习、迁移学习，还是其他各种各样的学习，无一例外都是人类发明出来帮助机器学习的方法。如何帮助机器更好地学习这也是一个未来非常广阔的话题。

很多人现在讨论监督学习和非监督学习，监督学习需要大规模的标注数据，相对应的成本也是非常高昂的。为了降低对大规模标注数据的依赖性，我们的研究员提出了一种新的学习范式——对偶学习。

事实上很多任务之间是有一个对偶性，比如机器翻译，从中文到英文和从英文到中文，这就是一种对偶性。探讨对偶性的原因就在于，这些互为对偶的人工智能任务可以形成一个闭环，使从没有标注的数据中进行学习成为可能。还是以机器翻译为例，目前我只有中文的单语语料库，我将一句中文翻译成英文，再用英文把它翻译回来。理论上这两句话应该是一样的，但实际上并非如此。假如说我有办法分辨这两句话相似的程度，我就可以利用它建立学习模型，并且不需要双语的语料库支持。

所以说，对偶学习的最关键一点在于，给定一个原始任务模型，其对偶任务的模型可以给其提供反馈。同样的，给定一个对偶任务的模型，其原始任务的模型也可以给该对偶任务的模型提供反馈，从而这两个互为对偶的任务可以相互提供反馈，相互学习、相互提高。

接下来我们要讲的是传统上我们不认为可以拿DNN来做的东西，比如说3D图形领域。起初，大家都拿DNN来做识别，而我们有时候需要去产生一些东西，而图形领域很多正是这样的问题。在图形领域里面，产生容易、分析困难。比如说图像表观模型（Image Appearance Model），要想知道一张图的纹理、光线和它的平滑程度，需要我们对图片进行拆解，这是典型的分析的问题。一个输入图像（input image），我们如何把它拆成三个这样的东西，然后就可以在各种不同的光源之下做渲染。

现在的做法都是要人工加一些机器去做，非常耗时、耗工。我们就想，能不能拿DNN来做这件事情，因为图像是一个识别的问题。但是，这个问题很难做，因为没有训练数据，或者说训练数据非常昂贵。如何解决这个问题？其实这个跟对偶学习很类似，分解图像的对偶任务就是渲染图像，用纹理、光线和平滑程度来合成图像我们是会的。首先，我们用1/10甚至1/20的标记数据先训练原始模型CNN0，训练完之后得到CNN1，再用CNN1将一个新的未标记输入图像分解成对应的纹理、光线和平滑程度，然后再用分解得到的数据合成一个新的图像，这样就得到了标定的分解数据和合成的图像数据。我们再用CNN1将合成的图进行分解，得到另一组纹理、光线和平滑程度的分解数据，这跟之前得到的分解数据存在误差，我们利用这个误差再来训练CNN2，直至误差几乎为零。利用这种自增强训练的方法就可以解决由于标定数据规模不够所带来的问题。

我们讨论了如何帮助机器学习，其实人类和机器促进学习的过程是相互的，我们依靠AI能够实现很多新的愿景，AI当然也离不开我们，否则我们根本不知道下一个AI是什么。我之前写过一篇文章叫做《人工智能与人类智能的共进化》，我们现在已经可以看到，AI的某些方面正在启发和刺激人类进步，它可以提供很多和人类学习相关的东西，帮助人类提升自我技能。我们来看几个研究院的具体例子。

第一个例子是微软小英，微软小英是一个能够帮助我们学习英文的机器人。现在很多英语学习者都在面临“哑巴英语”的难题，所以我们就做了微软小英，利用人工智能多种前沿技术来帮助我们学英文。微软小英设置有多种学习模块，比如单词修炼、易混音练习、发音挑战、跟读训练、情景对话和中英互译，几乎运用了微软所有的前沿语音技术，还有自然语言理解、机器翻译、机器学习、大数据分析等等。在微软小英推出的短短一年时间里，我们已经聚集了上百万用户，和很多英语教学相关的单位也都展开了密切合作。未来，我们会把更多技术融入到微软小英中，帮助大家学英文。同时我们也希望在不久的将来推出中文的学习，和更多的机构进行合作。

现在，很多人都在关注AI到底有没有创造力。十年前，微软亚洲研究院就在利用AI做一些创造力方面的工作，比如做对联、猜字谜，而今年我们又做出了一点新东西，我们发现AI还可以写诗、作词。微软小冰今年出版了第一本现代诗集《阳光失了玻璃窗》，它通过提取照片关键词就能够生成一首诗。做歌曲也是如此，我们拿既有的歌曲做训练数据得到新的乐曲，然后将词曲合成就可以做出一首完整的作品。

微软小冰创作诗歌

机器可以唱歌、作诗，同样也可以画画。每个人画画都会经历临摹的阶段，去模仿不同艺术风格，在学术界这叫做风格迁移，工业界也有很多这方面的应用尝试。事实上，他们对于风格迁移的处理普遍存在问题：鲁棒性不够、速度较慢。基于这个问题，我们就提出了一种新的风格迁移算法，这个算法对图像的风格提供了一种显式的表达“风格基元”( StyleBank )，通过对不同风格的图片使用不同的“风格基元”，再用简单的自解码器模型 ( auto-encoder ) 就可以实现不同风格的迁移。我们这样做可以节省30倍的训练量，同时可以节省一倍的运行时间，最关键的是效果也非常出色。微软也做了一款应用——Microsoft Pix，可以做很多处理和风格转换，大家可以自己尝试一下。

除了做图像的风格，视频风格也同样可以。我们的研究员们还提出了一个端到端 (end-to-end) 的在线视频风格迁移模型 ( Coherent Online Video Style Transfer )。这个模型在处理相邻帧的连续性的做法是，对于可追踪的区域，用前一帧对应区域的特征以保证连续性，而对于遮挡区域，则用当前帧的特征，最后得到既连续又没有重影的风格化结果。大家也可以看出来非常自然，而且也不会散动，速度也相当快。

对于更为精确和精致的视觉特征转化问题，微软亚洲研究院的研究员们提出了一种新的算法（Deep Image Analogy）。该算法结合图像对偶技术（Image Analogy）和深度神经网络（DNN），为内容上相关但视觉风格迥异的两张图像之间建立起像素级的对应关系，从而实现精确地视觉特征迁移。

最后，我想强调的一点是，学习永无止境，机器学习最基本的内涵就是在教机器怎么认得更好。对于人类而言，我也相信人是可以用机器来帮助自己学习的，所以未来，让我们和机器一起继续努力学习，互相共勉。

想要了解洪小文博士的演讲全文，请戳下方视频观看：

下期预告：

下期“二十一世纪的计算”大会精选内容中，我们将为大家放送微软全球资深副总裁Peter Lee的精彩演讲——以工匠力量改变人类社会，敬请期待！

你也许还想看：

● 精选 | 洪小文：人工智能与人类智能的共进化

● 洪小文：以科学的方式赤裸裸地剖析人工智能 | 混沌初开

● 观点 | 洪小文：人工智能+人类智慧=超级智能

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：[email protected]。

继续阅读

阅读原文