10TOPs/W，这家芯片公司“拿下”丰田/宝马/佛吉亚「GGAI视角」

加入高工智能汽车行业群（自动驾驶5群，车联网智能座舱3群，智能商用车群），加微信：17157613659，并出示名片，仅限汽车零部件及OEM厂商。

由于需要巨大的计算能力，感知算法仍然是自动驾驶汽车的瓶颈。

考虑到自动驾驶与电动汽车的并行发展，巨大感知数据的实时处理对于核心计算芯片的功耗要求提出了更高的要求。

“我们的技术可以在处理大量实时数据的同时，用不到100w的功率完成对整辆车的计算和推理工作。”Recogni公司创始人表示。

这家公司推出的集成模块，包括三个被动冷却型图像传感器、一个深度传感器和一个定制芯片。通过以太网连接到外部激光雷达或毫米波雷达，芯片使用其他传感器来补充摄像头感知，识别车辆、行人和其他物体。

这款芯片每秒能执行超过1000万亿次运算（1000TOPs），以每秒60帧的速度捕捉和分析多达3个800到1200万像素的摄像头产生的未压缩视频流。

更关键的是，现有市面上的大多数神经网络加速器技术要么是针对性能优化，要么是针对功率优化——没有一种技术是针对两者都优化的。

一、汽车边缘计算进入TOPs/W时代

1000TOPS，100瓦功耗，10TOPs/W是一个什么概念？

英伟达面向L4/L5的Pegasus芯片，每秒可完成320万亿次浮点计算（320TOPS），功耗为500瓦（换算为0.64TOPs/W），虽然相对Xavier的30万亿次浮点计算性能（30TOPS）提升了10多倍，但功耗也增长数倍。

英特尔旗下Mobileye的EyeQ5计算性能为24TOPS，功耗为10瓦，换算为2.4TOPs/W。整个完整的计算平台可搭载两块EyeQ5芯片、一个英特尔凌动C3xx4处理器，可应用于L4/L5。

华为发布的边缘计算昇腾310芯片的最大功耗为8W，主打高效计算低功耗AI芯片，整数精度（INT8）16TOPS，换算为2TOPs/W。

显然，Recogni公司的芯片性能远远超过目前其他几家竞争对手的水平，并且已经达到了数据中心级的处理能力。那么，10TOPs/W是可以达到的吗？还是说Recogni公司在夸大其词？

瑞萨电子曾在今年6月宣布，已经开发出一种高效的人工智能加速器，可以在低功耗下执行CNN(卷积神经网络)，其测试性能达到了8.8 TOPs/W。

加速器基于存内计算(PIM)架构，这是一种流行的人工智能技术，当数据从内存中读取时，在内存电路中执行乘法和累加操作。

为此，瑞萨开发了一种三值(- 1,0,1)SRAM结构PIM技术，可以执行大规模的CNN计算。然后将SRAM电路与能够在低功耗下读出内存数据的比较器相结合。

到目前为止，由于二进制(0,1)SRAM结构只能处理值为0或1的数据，内存中处理体系结构无法实现对单位计算的大规模CNN计算的足够精度。此外，制造过程的变化导致这些计算的可靠性降低。

三元(- 1,0,1)SRAM结构PIM体系结构采用三元存储器与简单的数字计算块相结合的方式，将硬件数量的增加和计算误差的增加降到最低。

同时，它允许根据所需的精度在1.5位(三元)和4位计算之间切换比特数。由于这可以在每个用户的基础上支持不同的精度和计算规模，用户可以优化精度和功耗之间的平衡。

当采用PIM结构时，通过检测SRAM结构中位线电流的值来读出内存数据。虽然采用A/D转换器进行高精度的位线电流检测是有效的，但这种方法增加了芯片面积，占用了更多的电能。

将比较器(1位传感放大器)与复制单元相结合，可以灵活地控制电流，从而开发出高精度的存储数据读出电路。通过停止未激活节点(神经元)的读出电路的运行，该方法也大大减少了被神经网络操作激活的节点数量，降低到1%左右，进一步降低了功耗。

对于TOPs/W的挑战，已经成为各大芯片初创公司吸引市场关注的利器。

以色列芯片公司Hailo今年5月发布的首款芯片，也号称是“世界上性能最好的深度学习处理器”，其中Hailo-8芯片可实现26Tops，而功耗仅为几瓦。

按照这家公司发布的测试数据，看起来也相当不错。Hailo-8与英伟达的Xavier AGX在ResNet-50基准上的比较数据，在类似的帧率下，其芯片提供2.8TOPs/W，而英伟达仅仅只有0.14TOPs/W。

当然，一款真正车规级芯片还有很多其他的标准需要考虑，比如成本、软件成熟度和解决方案的完整性，但是在TOPs/W的原始性能方面能够击败行业巨头，这无疑“让人兴奋”。

现在，除了英伟达、英特尔、高通等传统通用芯片巨头，NXP、瑞萨、TI等汽车芯片龙头，以及类似Recogni、Hailo、地平线等一批初创公司，都在抢占未知市场份额。

考虑到这个市场还处于早期阶段，而且未来车端边缘计算芯片的需求量及价值将是数据中心级的数倍，市场空间亦有遐想空间。

二、下一个Mobieye？

Recogni公司的定位是为L2以上自动驾驶汽车彻底变革传感器数据处理。

比如，这款芯片能够识别(检测、分割、分类)对象，将深度传感器信息融合到对象中，为决策系统提供16ms以内（城区道路）和8ms以内（高速公路）数据处理延迟。

同时，视觉感知可以实时识别200米以外的小物体，比如交通灯，甚至可以告诉系统灯光是红色、黄色还是绿色。

该公司负责人表示，与竞争对手的解决方案相比，其视觉处理方案使用一组不同的图像传感器来识别距离较远并且体积较小的物体，同时功耗控制在合理范围内。

识别模块效率高的原因之一是它依赖于被动冷却，这意味着不需要耗电的风扇。另一个原因是，内置芯片与三个内置摄像头的物理距离很近，减少了将传感器数据从摄像头传输到处理芯片的电力消耗。

目前，Recogni公司已经拿到了包括丰田、宝马、佛吉亚在内的多家汽车制造商和零部件厂商的资金。短期目标是量产用于L2自动辅助驾驶，同时开始针对L3/L4进行研发。

Recogni公司曾宣称，其系统在图像分类、目标检测、动作预测和深度推断等感知任务上比竞争对手高出两个数量级。

比如，在基准的ResNet 50上，其系统每秒可以对92,105张图像进行分类；在RetinaNet-101-800上，每秒执行1,750个推论；在R(2+1)D上，可以同时定位833人。在DepthNet上，每秒能分析3500个场景。

按照计划，Recogni公司将为OEM提供一个完整的感知、芯片集成模块。目前，该公司正与多家汽车制造商进行洽谈，为他们提供从模块到软件的全套支持技术。

继续阅读