山世光
中科院计算所智能信息处理重点实验室研究员、博导
从科幻走入现实
科幻电影常常是人类未来的预示器。
回忆《谍中谍4》中的一个片断。这是一个典型的“螳螂捕蝉,黄雀在后”的故事。
男特工在使用人脸识别技术搜索到他的目标后,抢得文件,却在折返的路上撞见女杀手。在被杀之前,他的人脸识别系统已经识别出对面走来的杀手,但为时已晚。
镜头中,男特工戴着的,是被我们称之为“Contact lenses”的隐形眼镜式摄像机。
这种人脸识别技术,是不是已经从科幻电影世界走入现实了呢?
人类社会其实早已进入了一个伟大的“看脸的时代”。
2005年开始,我们购买的数码相机里面就已具备所谓的“人脸识别”功能。实际这只是一种误传,我们的数码相机里没有“人脸识别”技术,有的只是“人脸检测”技术。它只管判断有没有“脸”,并不会识别它看到的人是谁。
自此,我们逐渐速步入“刷脸”的时代。我家附近理发店的员工都是用人脸识别考勤的。
去过香港的朋友知道,如果你使用的是新式卡片通行证,你完全可以自助通关。当然,前提是你的人脸和指纹能够被系统识别出来。
早些时候还有一则新闻,让“人脸识别”登上了娱乐版的头条。新闻故事说的是,演员赵薇的老公遭其司机“冒充”,骗过公证处的人脸识别系统,以委托人的身份卖掉了赵薇家一处千万豪宅。他是怎么做到的,我们不得而知。
但不管怎么说,我们使用二代身份证,比对持证人的脸,以判断是不是同一个人这件事,已经浸入到银行、证券券商等诸多的应用系统里。
“人脸识别”到底是什么?
人脸识别不外乎回答几类问题:
  • 他是他吗?赵薇老公的司机是赵薇的老公吗?
  • 他是谁?
  • 他可能是哪些人?
回答第一个问题,它只需把待确认人的脸进行比较,我们把这叫做“1比1的比对”。
回答第二个问题,就要它“搜肠刮肚”,把认识的所有人都比对一遍,被称之为是“1比N的比对”。那个谁,或许还不在数据库里,所以应该是“1比N+1”。
除此之外,第三类应用也是有的。比如执行护照查重,并不需要系统自动去判断,只需找出最像的几个人,再通过民警人工判断、去重。
机器应该如何识别人脸?是不是要测一下两个眼睛之间的距离有多宽,眼睛到鼻子距离有多远,嘴唇面积多大,下巴是什么形状?这其实只是上世纪七八十年代,自动人脸识别探索期采用的一些方法。
1991年,麻省理工学院的媒体实验室尝试过一个方法,我把它形容为“上帝造人”的方法,即给定一张照片,设想上帝造人的过程。造亚当的时候,为其精心设计一张面孔;到夏娃的时候,又精心设计了一张夏娃的面孔。
造了100个人之后,第101个呢?让他长得有点像第一个人,特别不像第二个人,非常像第三个人……越是相像,权重越大。用这样一种方式,我们可以用这些权重值来表示这个人。这种方法也被我们叫做“特征脸”。
当然,这些方法都已经成为了历史。真正实用的、效果较好的系统都不是这么做的。
我们做人脸识别,本质是比较两张照片是不是来自于同一个人。
第一步,计算两张照片的相似程度。检测人脸和五官的位置,
去除背景等与人脸无关的因素,主要
比较五官区域。

这里有个专业术语,叫“特征提取器”。所谓的特征提取器,是把照片中的五官区域做一个变换,定义为一堆数,这堆数我们暂且称它为Y。两张照片提取的特征分别为Y1和Y2。
我们去计算两者特征的相似程度,若相似程度大于70(注:仅举例说明,不同系统阀值不同),那“赵薇的老公”就等于“赵薇老公的司机”了。若相似程度小于70,判定他们不是一个人。
其中的核心问题是,用什么表示人脸?距离、角度等几何性的描述特征?准确度不够高,人脸稍做偏转就会导致这些几何属性变化,何况定位这些点也没那么容易。
所以,我们会直接采用一些数值,表示图像里的某个像素点。“0”是黑色的,“255”是白色的,“50” 是介于它们之间的一个亮度。
这些数值组成的数据矩阵就可以表示一个人的脸。
深度学习时代来临
深度学习,不但造就了人工智能进入一个全新的发展期,对人脸识别来说,也是全面沦陷——也许是陷阱,也许是天堂的这样一个技术领域。
以谷歌的人脸识别系统为例,他们在2015年发表的一篇文章里透露,用了800万人的两亿张照片,训练他们的深度学习模型。(天哪,谁曾经见过这么多人的这么多照片)这样的系统,可以比人的人脸识别能力强出多少?
那么,深度学习到底使得人脸识别发展到了什么样的水平?典型场景如证件照的比对,目前已做到千万甚至是亿级的照片库检索,识别率在90%以上。
如果能用一张清晰的、近期的证件照,替换我们二代身份证卡里那张分辨率不够高的小照片,误识率将降至万分之一以下。
虽然赵薇老公的房子是被卖掉了,但这样一个系统,即使严格与人相比,它的能力还是要比人更强。    
刷脸支付还会远吗?
许多人关心的,什么时候可以不要用卡,不用密码,直接“刷脸”付款?
马云在去年的汉诺威CeBIT展上,已经演示了用刷脸的方式买东西(蚂蚁金服Smile to Pay扫脸技术)。但这一方式目前尚未得到大量普及地应用。
这里面会涉及到两个问题:一是便利性,二是安全性。
我们对安全性尤其关注。即使是万分之一的误识率,也还是会存在被人盗刷的可能性。
为了保障安全性更高,我们的便利性势必就要降低,这就是所谓的“跷跷板理论”。
被颠覆的“眼见为实”
虽然人脸识别很重要,但是我们不能只看脸,还需要看一些别的。计算机视觉正试图去解决我们看世界的问题。
上个世纪60年代,人工智能先驱马文·明斯基(Marvin Minsky)给他带的一个本科生布置了一道暑期作业——给计算机连上一个摄像机,让计算机来描述它看到了什么样的世界。50年过去了,全球大量做计算机视觉的研究者,都没能完美地解决这个问题。
很多人不理解,认为认脸有什么难的,看物体有什么难的?
从这张图能够看出来里面有什么东西吗?假设你是计算机,你看到的就是这样一些数字。
我们希望计算机能够去从这些数字里面解读出眼睛、鼻子和嘴的位置。这里的每一个数都是图像里面的一个点,它的亮度。“0”是黑色的,“255”是白色的,“128”就是中间的一个灰度。
看和见其实是两个不同的概念。眼睛最多就是一个照相机,真正的“见”是在我们的大脑里,在我们大脑的视皮层区域。
我们过去一直在说“眼见为实”,实际上我们看到的这个世界,常常只是我们想像出来的世界。
未来,万物有眼
过去的三年里,随着深度学习的应用,计算机视觉取得了非常大的进步。物体识别的错误率,从2011年的26%降至2015年的3.6%。这是一个指数级的下降,换句话说就是出现了跨越式的发展。
另外一个非常有趣的话题也在2015年出现。谷歌、百度和微软都在做这样一个工作——看图写话——给出一张照片,计算机可以自动生成一段话,来描述这个图像里面的内容。甚至,给它一段视频,它可以描述这段视频里面正在发生什么事情。
这里面采用的技术,不仅仅有深度学习的处理,同时也有自然语言的处理。要知道,机器想去“类脑”,想像人一样去学习,去识别不同物体,其实是非常困难的。
现在是一个万物互联的时代,但是未来可能是一个万物有眼的世界。
还记得《速度与激情7》里面的那个片段吗?

这是一个多么美好的世界,又是一个多么恐怖的世界,因为你无处可逃,不知如何逃脱这样一套“天眼”系统。它无时无刻不在。
欢迎进入到万物有眼的时代。谢谢大家!


点击标题 查看往期回顾

继续阅读
阅读原文