为什么事件相机可能是计算机视觉的未来

本文系微信公众号《大话成像》，知乎专栏《all in camera》原创文章，转载请注明出处。大话成像读者QQ 交流群2 ：833282006 大话成像技术论坛：ww.dahuachengxiang.com 微信群请先加 zxzombie

本站新教学视频《图像传感器技术与应用》上线淘宝教育

《成像系统图像质量调试》《成像算法基础（python版）》《成像系统镜头光学》《新版图像质量测试测量与国际标准》《新版cmos sensor测试测量与国际标准》《新版数字成像系统42讲》课程大话成像淘宝官方网店有售：

https://shop322456667.taobao.com/

计算机视觉是否即将迎来革命性的自我革新？

作为匹兹堡大学眼科学教授及卡内基梅隆大学机器人研究所的兼职教授，里亚德·贝诺斯曼（Ryad Benosman）坚信这一前景。贝诺斯曼教授，也是基于事件的视觉技术的先驱者之一，他预测，将神经形态视觉——这种基于事件驱动相机的计算机视觉技术——视为计算机视觉领域的未来发展方向。

他表示：“计算机视觉领域已经历了多次彻底的重塑。我有幸目睹了至少两次，它从零开始，全新地重生。”

里亚德·贝诺斯曼（图片来源：匹兹堡大学）

贝诺斯曼回顾了上世纪90年代由摄影测量的图像处理向基于几何的方法转变，以及近来迅速向机器学习转型的趋势。尽管经历了这些转变，现代计算机视觉技术还是主要依赖于图像传感器——那些能够产生出与人眼所见相似图像的相机。

什么是EVS？

EVS 捕捉运动（亮度变化）

EVS 旨在模拟人眼感知光线的方式。人眼的工作方式是，当视网膜上的受体暴露在光线下时，会将其转换为视觉信号发送到大脑。随后的神经元细胞识别明暗，信息通过视网膜神经节细胞传递到大脑的视觉皮层。

在 EVS 中，入射光在成像器的光接收电路中转换为电信号。信号通过放大器单元并到达比较器，在比较器中差分亮度数据被分离并分为正信号和负信号，然后将其处理并作为事件输出。

EVS机制

在基于事件的视觉传感器中，对每个像素检测到的亮度变化进行过滤，以仅提取超出预设阈值的亮度变化。然后，该事件数据在输出之前与像素坐标、时间和极性信息组合。每个像素异步运行，独立于其他像素。

附图说明了传感器如何捕捉球的运动。

基于事件的视觉传感器数据输出

事件相机是计算机视觉中相对较新的子类别，计算机视觉是一门专注于使机器能够解读视觉信息（如图像或视频）的学科。计算机视觉包括图像处理、模式识别和机器学习等技术。事件相机意图在技术上模仿人类大脑。随着对人脑及其工作方式的兴趣日益增长，仿生工程学正越来越受到重视。事件相机仅仅是模仿人类视网膜芯片方向的第一步。这些相机也被称为仿生相机或DVS（动态视觉系统）相机。它们根据记录环境的动态来捕捉视觉信息。

工作原理是这样的：事件相机中的每个像素都作为一个独立的处理单元，使它们能够异步输出亮度变化。一个像素亮度的变化被称为一个事件。一个事件代表记录场景中的运动、亮度变化和时间戳。事件以微秒分辨率打上时间戳，并以亚毫秒延迟传输，这使得这些传感器能够快速响应视觉刺激。

下面的的图片将事件相机的输出与传统相机进行了比较。你可以看到一个包含旋转黑点的圆盘。传统相机以固定的间隔记录完整的帧。在每一帧中，黑点移动了相当远的距离。这些记录帧之间的信息就丢失了。而事件相机中的像素只被黑点的移动触发。这意味着它们以连续流的形式提供信息。

原理上事件相机的每个像素由光接收和亮度检测单元组成。入射光在光接收单元中被转换成电压。亮度检测单元中的差分检测电路检测参考电压和转换后的入射光电压之间的变化。如果正方向或负方向的变化大于设定的阈值，则比较器将其识别为事件并输出该数据。

以检测到的事件亮度作为参考来重置电路，并根据该新的参考电压在正（亮）和负（暗）方向上设置阈值。如果入射光亮度沿正方向变化量大于设定的阈值（即输出电压超过正阈值），则输出正事件；反之，如果电压低于负阈值，则输出负事件。

从像素上来看工作流程如下

(1) 设置参考电压和正/负阈值。

(2)当入射光亮度低于负阈值时，输出负事件。

(3) 根据事件输出处的值重置参考电压和正/负阈值。

(4)如果入射光亮度进一步低于负阈值，则输出另一个负事件。

(5) 根据第二事件输出处的值再次重置参考电压和正/负阈值。

(6)如果随后亮度增加并超过正阈值，则输出正事件。

如下图所示，像素将入射光亮度对数转换为电压。这使得传感器能够检测低亮度范围内的细微差异，同时响应高亮度范围内的宽亮度差异以防止事件饱和，从而实现宽动态范围。

该机制产生的 EVS 图像如下（右）所示。

由于目标移动时像素的亮度会发生变化，因此移动目标的图像将呈现出好像其轮廓已被提取一样的效果（照片是由安装在汽车仪表板上的配备 EVS 的相机拍摄的）。

为何倾向于使用事件相机？传统相机作为获取视觉信息的标准设备已有数十年，它们常常是唯一选择，但同时也带来了许多不得不接受的限制。这些局限包括：低帧率、高延迟、以及对极端光照条件的不良适应性，还有较高的能源消耗。尽管一些厂商努力通过硬件创新来弥补这些缺陷，但他们并未触及核心技术的改进。与此相反，事件相机展示了一种全然不同的硬件构架，它能够实现高达10,000帧每秒的帧率，极低的功耗（约1mW），以及超过120至140db的动态范围。这些特性使事件相机能够在传统相机表现不佳的场合下也能良好工作。例如，在下图中，一辆车驶出隧道的情景就揭示了这一点：传统相机捕获的图像由于亮度骤变而出现过度曝光，而在事件相机就可以很好的成像.

不过事件相机仅在亮度变化时输出，然后可以使用不同的算法重构我们从传统相机中了解的图像。对于许多应用而言，场景中静态对象的信息是不需要的，只是增加了无用的图信息，本质上只是在处理流程中产生了额外负担。

怎么判断你的项目中是否需要事件相机？选择事件相机而不是传统相机有很多原因，但为了不写一个没完没了的列表，请先问自己以下问题：

我的场景中有无法控制的光线条件吗？
我是否有不良光照条件——非常暗或非常亮？
我是否记录一些正在移动的东西？
我是否需要记录某些非常高帧率的东西？
我是否使用移动设备进行记录（例如汽车）？
我是否有电力限制——例如因为我在使用无人机？
我是否喜欢新运算技术并认为模仿人脑非常棒？

如果你能对上述任何问题或至少一些问题回答“是”，那么你绝对应该考虑使用事件相机。

事件相机有哪些可能的应用？

事件相机的潜在用途实际上是无限的。真正的问题是它们为什么还没有被广泛使用。从直接使用的角度来看，以下应用将是特别有前景的：

机器人和制造业：
同时定位与地图构建（SLAM）
高速避障（包括无人机应用）
无人机应用
机器与环境之间的高速互动
生产线监控
无法控制光源的视觉检测
汽车和通用应用：
快速检测行人和自行车手
变化光线环境的检测
手势识别
夜视
深度估计
无延迟的高速检测
光流估计

另外一个主流研究思路是结合RGB相机和事件相机进行图像的重建,可以提升画质,帧滤,动态范围减少运动模糊等视觉信息重建功能如:

强度图像重建
视频合成
图像超分辨率
联合/引导过滤
色调映射
视觉稳定
偏振重建
高动态范围图像还原
自动对焦
高速成像
运动模糊去除

事件相机的研究确实是一直都在增长,以下是最近在计算机视觉和机器人领域发表的一些关于基于事件的视觉的论文。正如我们所看到的，这是一个新兴的话题，越来越多的人正在加入事件相机的研究

那么，为什么事件相机还未普及呢？尽管事件相机拥有众多优势，但它们在市场上的普及程度却不高。原因如下：

供应链挑战：

想要定制一款基于CMOS的相机，您会发现供应商在准备生产符合您精确规格的相机时显得非常为难。您需要的特定组件可能必须进行大批量生产，且按照特定的质量和性能标准来生产。

开发成本：

企图开发基于事件相机的系统将面临巨大挑战，需要找到愿意从赢利的CMOS半导体生产线转向他们认为风险较高、未经市场验证的新生产线的供应商。此外，制造成本可能非常高昂，最终这些成本需要转嫁给消费者。

价格问题：

与供应链挑战紧密相关的是价格问题。目前市场上单个事件相机模块的价格并不低廉，这大大限制了它们的应用范围。

技术的尖端性：

尽管行业如机器人自动驾驶位于技术前沿，但他们在硬件设计上往往采取保守策略。由于机器人自动驾驶平台复杂，系统设计中需要经过验证且可靠的组件，而事件相机尚需时日从实验室走向大规模商业应用。

竞争力问题：

现代CMOS相机在快门速度、像素密度和动态范围等方面的进步正在缩小与事件相机的性能差距。它们足够便宜，以至于可以在单一应用中使用多个CMOS相机，以克服单个相机的不足，从而减少了对事件相机的依赖。

硬件接口和通信标准不统一：

不同制造商的事件相机在事件传输协议和硬件接口方面存在差异，这意味着针对事件相机的每个开发项目都需要单独的适配工作，进一步增加了使用成本。

质量和评估标准不一：

尽管所有事件相机传感器都宣称能达到120到140db的动态范围，但关于如何实现这一范围以及如何评估事件相机的图像质量尚无统一标准，这让终端用户难以区分不同事件相机之间的质量差异。

继续阅读

阅读原文