依图科技再破世界记录！AutoML取代人工调参，刷榜三大权威数据集

新智元报道

编辑：白峰、鹏飞

【新智元导读】进入2020年，中国硬核人工智能独角兽依图科技依靠自研AI云端芯片QuestCore™，通过AutoML取代人工调参，深度优化的ReID算法框架，刷榜全球工业界三大权威数据集，在阿里巴巴、腾讯优图、博观智能等一众强手中取得第一。「新智元急聘主笔、高级主任编辑，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

近年来，行人重识别技术在业内得到了越来越多的关注，CVPR投稿中关于ReID的研究逐年增多。随着行人重识别技术的日渐成熟，其巨大的应用价值和市场潜力得到了越来越多的关注。

杀手级视觉应用即将面世？依图视觉识别创新纪录

2020年还有再问人脸识别之后的下一个风口是什么？

别问，问就是行人重识别。（ReID）

对于这个问题，业界似乎早已有了共识。从AI的人脸识别能力超越人类以来，学术界和产业界的目光逐渐转向另一个更具科研意义和应用价值的课题——行人重识别（Person Re-identification，ReID）。

近日，依图科技宣布在ReID领域取得突破，刷新全球工业界三大权威数据集当前最优成绩（SOTA），算法性能达到业界迄今最高标准。

成绩单上的公司可谓赫赫有名，包括阿里巴巴，腾讯优图、博观智能、海格通信，中兴等强手林立，充分说明了如今ReID要想取得1%的进步，其难度有多么的高！

也正如此，才称得上依图视觉识别杀手级视觉应用。

用AutoML取代人工调参，深度优化ReID算法框架

“首位命中率”（Rank-1 Accuracy）及“平均精度均值”（Mean Average Precision，mAP），是衡量ReID的两大关键指标。

首位命中率意味着算法能够在众多图像中准确找出最容易识别、或者说匹配的那张。而mAP值它反映的是系统的综合检索性能。mAP值越高，说明系统的实用性越好，既能查得全也能查得准，能够较好地应对多遮挡、光线暗、画面模糊等情况。

评价ReID算法性能时不能只看首位命中率，否则无法反映出模型的真实能力，尤其是应对复杂场景的表现，必须结合mAP值，综合评价。

依图科技凭借自身工程与研发实力，深度优化了ReID算法框架，显著提升了算法效率，通过结合AutoML等前沿技术，进一步创新性地实现了模型参数的自动搜索与迭代，突破了依赖算法研究员手工设计与调参的传统算法开发流程，也使得算法的泛化性能更强。

此次依图自研算法在业界最具影响力的三大ReID数据集Market1501、DukeMTMC-ReID、CUHK03上，将衡量算法性能的两大关键指标“首位命中率”（Rank-1 Accuracy）及“平均精度均值”（Mean Average Precision，mAP）6项数据全部提升，充分显示了依图的技术实力，进一步稳固了中国AI在该任务下领跑地位。

何为行人重识别？

行人重识别（Person Re-identification也称行人再识别，简称为ReID，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。通常被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。

哈利·波特在《阿兹卡班囚徒》中使用实点图实时追踪并识别追踪人。

行人重识别的研究方法主要有以下几种：

基于表征学习的ReID方法

这类方法通常有两个网络，分类子网络对图片进行ID预测，根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征，判断这两张图片是否属于同一个行人，该子网络实质上等于一个二分类网络。经过足够数据的训练，再次输入一张测试图片，网络将自动提取出一个特征，这个特征用于行人重识别任务。

基于度量学习的ReID方法

度量学习是广泛用于图像检索领域的一种方法。不同于表征学习，度量学习是通过网络学习出两张图片的相似度。在行人重识别问题上，具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片的距离尽可能小，不同行人图片的距离尽可能大。

基于局部特征的ReID方法

早期的ReID研究主要关注点在全局的global feature上，就是用整图的特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈，于是开始渐渐研究局部的local feature。

基于视频序列的ReID方法

跟基于单张图像的方法相比，最主要的不同点是不仅考虑了图像的内容信息，还考虑了帧与帧之间的运动信息。

如果这些方法与人脸识别相结合，将会产生更大的应用价值。

除了智能零售、智慧交通、智能城市等经常提及的应用场景，ReID技术的应用也将使日常生活更加便捷：游乐园更易寻找走失儿童、宠物/家庭机器人可以凭背影准确识别主人或顾客并提供相应服务。

然而，在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到高质量的人脸图片。当人脸识别失效的情况下，ReID就成为了一个非常重要的技术手段。单个摄像头的覆盖区域有限，因此做行人分析的话需要多摄像头协作，而通常情况下各摄像头位于不同的位置和视角，其视域互不重叠，为解决摄像头网络下的广域行人分析，就必须首先解决跨视域多摄像头下行人再识别的问题。

由于ReID需要从不同摄像机拍摄的图像或视频中找出同一个人物，而这些摄像机所覆盖的范围彼此并不重叠，导致缺乏连贯的信息，而且不同画面中人物的姿态、行为甚至外观（比如戴上帽子、脱下外套）会发生较大变化，不同时间、场景的光照、背景和遮挡物各不相同（背景中常还有体型、衣着相似的其他人物干扰），摄像机的分辨率也有高有低，这些都对ReID技术提出了极大的挑战。

自研求索芯片，仅凭穿着实现高精度行人重识别

任何没有经历过商业化检验的项目，都只是空中楼阁而已。

所以，对于依图这样的公司来说，只是调调参，刷刷榜，那是远远不够的。

所有的研究数据，都需要在市场上接受商业化的检验，才能真正让企业百炼成金。

因为商业化落地所面临的问题，和实验室遇到的难题相比，复杂度提升了不止一个等级。除了对算法性能的要求，还有一个非常难的问题，是现有的摄像机等终端设备算力不够。

而依图研发人员通过自研的云端AI芯片QuestCore™（求索），将将训练+推理耗时压大幅缩短，在仅凭穿着、步态特征的条件下，依图可以将ReID做到大约两年前人脸识别的水平。

2018年，ImageNet竞赛已经停办，因为计算机识别人脸/物体的能力早已超越人类，继续“刷榜”已经没有意义。2018年，也是以人脸识别为代表的计算机视觉应用大规模商用的开始。

两年后的今天，刷脸支付、刷脸乘车已经愈发普及。

在显著提高ReID精度的同时，依图凭自研的云端AI芯片QuestCore™（求索）实现了技术商业化落地，业界期待的下一个计算机视觉“杀手级应用”已经到来。

对此您怎么看？

继续阅读

阅读原文