加入高工智能汽车行业群(自动驾驶行业5群,车联网智能座舱3群,智能商用车行业群),加微信:15818636852,并出示名片,仅限智能网联汽车零部件及OEM厂商。
传感器和简单的自动驾驶算法已经不足以成为这个行业的门槛。
“对人类来说最容易的事情对计算机来说却是最难的——对所有的人工智能来说都是如此。”哈佛大学神经学家和计算机科学家Sam Anthony曾经说过这样一句话。
了解人类才是自动驾驶汽车最难的问题,对道路参与者的意图做出至关重要的直觉判断是另一层安全冗余。
沃尔沃北美卡车公司宣布,他们已经展示了如何利用“人类直觉人工智能”来增强卡车司机的情境感知能力。“人类直觉人工智能”可以解读行人、自行车手和驾车者等易受伤害的道路使用者的意图和意识。
软件供应商Perceptive Automata(Sam Anthony正是这家公司的联合创始人之一)参与共同开发了一个概念验证。
这家公司的人工智能软件从车载传感器接收数据,像人类一样,通过阅读视觉线索(如眼神接触、姿势、身体方向和头部运动),实时评估行人、骑自行车者和其他司机的可能意图和意识。
提高安全性是通过对卡车附近的道路使用者进行360度连续监测来实现的,在必要时,根据人类意图的变化向卡车司机和车载自动化系统发出信号,降低风险。
机器缺乏这种解读人类视觉信号的关键能力。今天的基于几何和轨迹的自动驾驶系统主要使用人和车辆的位置和运动,并不能准确预测一个人下一步可能做什么。
Perceptive Automata公司的研发人员从与行人、骑自行车的人和其他驾车者互动的车辆中收集传感器数据,然后将图像分割成更小的片段。
然后,他们模糊或覆盖每个切片的一部分,并询问一组人所描述的人将要做什么。他们重复这个过程成千上万次,进行各种各样的互动,并利用结果训练模型。
当然,预测人类行为并不像给一棵树贴上标签(传统的机器学习)那么容易——但是捕捉这种模糊性对于程序设计自动驾驶决策系统应该如何表现是很重要的。
目前的自动驾驶汽车系统可以非常保守地行驶,但这可能会让乘客体验不佳,对与他们共享道路的人类也不安全。
换句话说,没有这个问题的解决方案,就不会有真正意义上的无人驾驶汽车的部署。“控制车辆的大脑试图预测附近的人(其他开车的司机)会做什么,而无知的系统恐慌会导致过度刹车。
如果自动驾驶汽车能够可靠地识别出人类是否意识到车辆,并判断它们进入道路的可能性有多大,那么汽车就不会在每次看到人的时候都停下来。
这意味着少走弯路,让乘客坐起来更舒服,减少车辆的磨损,以及被后面的人类司机意外追尾的可能性。当然,它也可以挽救行人的生命。
Perceptive Automata公司的团队由来自哈佛、麻省理工和斯坦福的神经科学家和人工智能专家组成。去年10月,该公司宣布已经筹集了1600万美元的A轮融资(丰田和现代汽车参与了投资),用于招募工程人才,进一步完善其面向全球市场的人工智能软件human intuitive。
“如果无人驾驶汽车不能理解道路上的人,也不能与人互动,就无法在任何有意义的规模上安全部署。这项技术对自动驾驶汽车的广泛应用至关重要。”丰田人工智能风险投资公司相关负责人表示。
近年来,在自动驾驶视觉领域兴起的另一股势力是基于摄像头的“光流技术”,来判断和预测移动物体的运动轨迹。
光流是由物体与相机之间的相对运动引起的物体在连续序列帧之间的运动。
去年,大陆集团推出了第五代车规级摄像头MFC500系列,除了具备传统识别障碍物的功能之外,MFC500还可识别人体的四肢、背包、五官,人体在摄像头的镜头下,变成了移动的分段条形物体,通过软件识别算法,依此可以判别出行人的姿态,包括但不限于行、坐、卧、立等状态,以及判断出大人还是小孩。
另外根据面部识别技术,还可以判断出行人是否低头行走还是注视着车辆,通过这些种种参数,最后计算出行人对于行车安全的系数,以此来对辅助自动驾驶。
大陆集团相关负责人表示,视觉识别的关键目的是对行人运动的趋势做出预判,提前预警可能发生的事故。
这款摄像头将于2020年投产,定位于多功能摄像头,单颗不仅可以兼顾远近多场景,同时也可以配合其他摄像头,级联完成更丰富的功能应用。
而在支持光流技术的处理芯片方面,由于涉及的复杂性,过去计算机还无法识别和跟踪对象或对视频流中的动作进行分类。
随着DNNs的出现和GPU带来的巨大加速度,所有这些任务现在都可以由计算机高精度地执行。英伟达的图灵GPU引入了一种新的硬件功能,用于计算图像之间的光流,具有非常高的性能。
目前,跟踪视频提要中的对象有两种主要方法。第一种是在每一帧中检测:使用对象分类为每一帧中感兴趣的对象识别边界框,并在帧与帧之间跟踪对象边界。
第二种是检测跟踪:识别第一帧(或每n帧)中目标的边界框,计算后续帧中属于目标的像素点(或块)的运动,进行跟踪

第一种方法是精确的,但是由于需要在每个帧上运行对象分类(推理),所以计算上比较复杂。第二种方法需要较少的计算,但依赖于对连续帧之间像素(或块)的运动/流向量的精确估计。
通常用于目标跟踪的两种光流类型包括密集光流和稀疏光流。后者很受欢迎,因为它的计算复杂度很低,并且在Kanade-Lucas-Tomashi (KLT)等功能跟踪器中很有用。
密集光流方法具有较高的精度和较高的计算复杂度。由于这个原因,密集光流计算已经超出了许多实际的用例。光流的其他用例包括立体深度估计、视频帧插值和视频帧外推。
图灵GPU中的硬件光流功能通过将密集的流向量计算转移到GPU上的专用硬件引擎来帮助所有这些用例。英伟达配套的光流SDK公开了一组新的api,允许开发人员访问该硬件功能。
目前,Maxwell、Pascal和Volta三代GPU都包括一个或多个视频编码器(NVENC)引擎,它提供了一种称为仅运动估计模式的模式。这种模式允许用户只在NVENC上运行运动估计并检索得到的运动矢量(MVs)。
然而,在许多需要跟踪精度的用例中,运动矢量可能不是很精确。这在不同的光照条件下尤其如此,在不同的光照条件下,光强从一帧到下一帧会发生变化。
图灵gpu中的光流硬件使用复杂的算法生成高精度的流向量。这些算法能有效地处理帧与帧之间的强度变化,并能比传统的单帧模式更紧密地跟踪真实目标的运动。
下面表格为图灵光流模式与传统的ME-only光流模式的区别:
目前,图灵GPU中的光流硬件返回的流矢量粒度高达4×4像素块,精度为四分之一像素。利用各种后处理算法可以进一步提高精度和粒度。光流SDK包括一些流行的后处理算法的优化实现。

同时,利用光流信息训练视频后处理的深度学习网络是一个常见的用例。GPU的NVDEC(片上视频解码器)引擎解码的视频帧可以传递给光流引擎,用于生成所需帧对之间的光流矢量图,作为训练的一部分。
不过,目前大多数光流算法并不适用于实时处理,但一些研究结果证明,牺牲精度来获得速度的算法仍然可以在保持足够精度的同时进行升级,从而达到避撞的目的。

继续阅读