造就Talk | 山世光：天眼系统终将开启，你准备好了吗？

山世光

中科院计算所智能信息处理重点实验室研究员、博导

从科幻走入现实

科幻电影常常是人类未来的预示器。

回忆《谍中谍4》中的一个片断。这是一个典型的“螳螂捕蝉，黄雀在后”的故事。

男特工在使用人脸识别技术搜索到他的目标后，抢得文件，却在折返的路上撞见女杀手。在被杀之前，他的人脸识别系统已经识别出对面走来的杀手，但为时已晚。

镜头中，男特工戴着的，是被我们称之为“Contact lenses”的隐形眼镜式摄像机。

这种人脸识别技术，是不是已经从科幻电影世界走入现实了呢？

人类社会其实早已进入了一个伟大的“看脸的时代”。

2005年开始，我们购买的数码相机里面就已具备所谓的“人脸识别”功能。实际这只是一种误传，我们的数码相机里没有“人脸识别”技术，有的只是“人脸检测”技术。它只管判断有没有“脸”，并不会识别它看到的人是谁。

自此，我们逐渐速步入“刷脸”的时代。我家附近理发店的员工都是用人脸识别考勤的。

去过香港的朋友知道，如果你使用的是新式卡片通行证，你完全可以自助通关。当然，前提是你的人脸和指纹能够被系统识别出来。

早些时候还有一则新闻，让“人脸识别”登上了娱乐版的头条。新闻故事说的是，演员赵薇的老公遭其司机“冒充”，骗过公证处的人脸识别系统，以委托人的身份卖掉了赵薇家一处千万豪宅。他是怎么做到的，我们不得而知。

但不管怎么说，我们使用二代身份证，比对持证人的脸，以判断是不是同一个人这件事，已经浸入到银行、证券券商等诸多的应用系统里。

“人脸识别”到底是什么？

人脸识别不外乎回答几类问题：

他是他吗？赵薇老公的司机是赵薇的老公吗？
他是谁？
他可能是哪些人？

回答第一个问题，它只需把待确认人的脸进行比较，我们把这叫做“1比1的比对”。

回答第二个问题，就要它“搜肠刮肚”，把认识的所有人都比对一遍，被称之为是“1比N的比对”。那个谁，或许还不在数据库里，所以应该是“1比N+1”。

除此之外，第三类应用也是有的。比如执行护照查重，并不需要系统自动去判断，只需找出最像的几个人，再通过民警人工判断、去重。

机器应该如何识别人脸？是不是要测一下两个眼睛之间的距离有多宽，眼睛到鼻子距离有多远，嘴唇面积多大，下巴是什么形状？这其实只是上世纪七八十年代，自动人脸识别探索期采用的一些方法。

1991年，麻省理工学院的媒体实验室尝试过一个方法，我把它形容为“上帝造人”的方法，即给定一张照片，设想上帝造人的过程。造亚当的时候，为其精心设计一张面孔；到夏娃的时候，又精心设计了一张夏娃的面孔。

造了100个人之后，第101个呢？让他长得有点像第一个人，特别不像第二个人，非常像第三个人……越是相像，权重越大。用这样一种方式，我们可以用这些权重值来表示这个人。这种方法也被我们叫做“特征脸”。

当然，这些方法都已经成为了历史。真正实用的、效果较好的系统都不是这么做的。

我们做人脸识别，本质是比较两张照片是不是来自于同一个人。

第一步，计算两张照片的相似程度。检测人脸和五官的位置，

去除背景等与人脸无关的因素，主要

比较五官区域。

这里有个专业术语，叫“特征提取器”。所谓的特征提取器，是把照片中的五官区域做一个变换，定义为一堆数，这堆数我们暂且称它为Y。两张照片提取的特征分别为Y1和Y2。

我们去计算两者特征的相似程度，若相似程度大于70（注：仅举例说明，不同系统阀值不同），那“赵薇的老公”就等于“赵薇老公的司机”了。若相似程度小于70，判定他们不是一个人。

其中的核心问题是，用什么表示人脸？距离、角度等几何性的描述特征？准确度不够高，人脸稍做偏转就会导致这些几何属性变化，何况定位这些点也没那么容易。

所以，我们会直接采用一些数值，表示图像里的某个像素点。“0”是黑色的，“255”是白色的，“50” 是介于它们之间的一个亮度。

这些数值组成的数据矩阵就可以表示一个人的脸。

深度学习时代来临

深度学习，不但造就了人工智能进入一个全新的发展期，对人脸识别来说，也是全面沦陷——也许是陷阱，也许是天堂的这样一个技术领域。

以谷歌的人脸识别系统为例，他们在2015年发表的一篇文章里透露，用了800万人的两亿张照片，训练他们的深度学习模型。（天哪，谁曾经见过这么多人的这么多照片）这样的系统，可以比人的人脸识别能力强出多少？

那么，深度学习到底使得人脸识别发展到了什么样的水平？典型场景如证件照的比对，目前已做到千万甚至是亿级的照片库检索，识别率在90%以上。

如果能用一张清晰的、近期的证件照，替换我们二代身份证卡里那张分辨率不够高的小照片，误识率将降至万分之一以下。

虽然赵薇老公的房子是被卖掉了，但这样一个系统，即使严格与人相比，它的能力还是要比人更强。

刷脸支付还会远吗？

许多人关心的，什么时候可以不要用卡，不用密码，直接“刷脸”付款？

马云在去年的汉诺威CeBIT展上，已经演示了用刷脸的方式买东西（蚂蚁金服Smile to Pay扫脸技术）。但这一方式目前尚未得到大量普及地应用。

这里面会涉及到两个问题：一是便利性，二是安全性。

我们对安全性尤其关注。即使是万分之一的误识率，也还是会存在被人盗刷的可能性。

为了保障安全性更高，我们的便利性势必就要降低，这就是所谓的“跷跷板理论”。

被颠覆的“眼见为实”

虽然人脸识别很重要，但是我们不能只看脸，还需要看一些别的。计算机视觉正试图去解决我们看世界的问题。

上个世纪60年代，人工智能先驱马文·明斯基（Marvin Minsky）给他带的一个本科生布置了一道暑期作业——给计算机连上一个摄像机，让计算机来描述它看到了什么样的世界。50年过去了，全球大量做计算机视觉的研究者，都没能完美地解决这个问题。

很多人不理解，认为认脸有什么难的，看物体有什么难的？

从这张图能够看出来里面有什么东西吗？假设你是计算机，你看到的就是这样一些数字。

我们希望计算机能够去从这些数字里面解读出眼睛、鼻子和嘴的位置。这里的每一个数都是图像里面的一个点，它的亮度。“0”是黑色的，“255”是白色的，“128”就是中间的一个灰度。

看和见其实是两个不同的概念。眼睛最多就是一个照相机，真正的“见”是在我们的大脑里，在我们大脑的视皮层区域。

我们过去一直在说“眼见为实”，实际上我们看到的这个世界，常常只是我们想像出来的世界。

未来，万物有眼

过去的三年里，随着深度学习的应用，计算机视觉取得了非常大的进步。物体识别的错误率，从2011年的26%降至2015年的3.6%。这是一个指数级的下降，换句话说就是出现了跨越式的发展。

另外一个非常有趣的话题也在2015年出现。谷歌、百度和微软都在做这样一个工作——看图写话——给出一张照片，计算机可以自动生成一段话，来描述这个图像里面的内容。甚至，给它一段视频，它可以描述这段视频里面正在发生什么事情。

这里面采用的技术，不仅仅有深度学习的处理，同时也有自然语言的处理。要知道，机器想去“类脑”，想像人一样去学习，去识别不同物体，其实是非常困难的。

现在是一个万物互联的时代，但是未来可能是一个万物有眼的世界。

还记得《速度与激情7》里面的那个片段吗？

这是一个多么美好的世界，又是一个多么恐怖的世界，因为你无处可逃，不知如何逃脱这样一套“天眼”系统。它无时无刻不在。

欢迎进入到万物有眼的时代。谢谢大家！

曹立群 | 在这个焦虑的时代，川普式的小丑容易成功

余凯 | 十年后，AI Inside无处不在

单霆 | 为什么无人驾驶会垄断未来

Misa.Z | 是什么撕开了人和机器的边界？

简里里 | 我们为什么觉得孤独

王健 | 以“我”为中心的世界

马家辉 | 我们生活在一个没有遗忘权利的时代

点击标题查看往期回顾

继续阅读

阅读原文