CICO ：用于视觉分析任务的内容感知图像压缩框架

来源
：ACM MMSys 2202

原标题
：Context-aware Image Compression Optimization for Visual Analytics Offloading
主讲人
：Bo Chen

内容整理
：王彦竣

本演讲介绍了一种内容感知图像压缩优化框架 CICO，实现视觉分析任务的低带宽和低延迟的卸载(offloading) 。利用易计算的低级图像特征来理解图像中不同区域对视觉分析任务的重要性，CICO 将卸载中的图像压缩语义化，能够优化压缩大小和分析准确性之间的平衡。广泛的实验结果表明，CICO 在相近的分析准确度下，相比于现有压缩算法降低 40% 的带宽占用。在低延迟方面，CICO 实现了比最先进的技术了高达 2 倍的加速压缩技术。

研究背景与相关工作
研究动机

低级图像特征
核心设计思路

方法

语义感知压缩算法
压缩优化器
整体架构

实验
总结

研究背景与相关工作

随着卷积神经网络 (CNN) 的进步，视觉分析任务如人脸识别，行人检测已部署在物联网环境中。通常，视觉数据由物联网中的摄像机捕捉后实时流式传输到边缘服务器进行分析。由于物联网设备所处的严苛网络条件，为了保证物联网系统中视觉应用程序的性能，视觉分析卸载所需的网络带宽必须最小化。为了支持时间敏感的视觉应用，整个可视化分析卸载管线从编码到解码的延迟必须降到最低。而实现低带宽、低延迟视觉信息卸载的关键是通过图像压缩最小化需要卸载的图像数据量。

传统的图像压缩算法如 JPEG，关注于在有限的网络带宽下提升重建图片的质量，但它们无法考量这些图像在分析应用中的准确性。基于机器学习的方法通过同时优化视觉任务中的准确性以及压缩数据的大小来弥补这一缺陷。它们可以在保留相同的图像重建质量的情况下最小化压缩图像的大小。然而，这些方法需要大量的算力来支持。还有一些方法可以通过传输到边缘服务器到信息来推测重要的图像区域。但上述方法存在额外的网络延迟。

在本演讲中所提出的 CICO 是第一个实现低带宽和低延迟的视觉卸载同时保证分析准确性的网络。

研究动机

低级图像特征

作者认为实现低带宽与低延迟的重点是利用低级图像特征。低级图像特征（简称特征）抽象图像信息并且与高层级的视觉应用高度相关。他们可以提供语义信息来增强图像压缩的程度。更重要的是，不像计算密集型 CNN 特征，这些特征可以高效地被计算。给定一个目标视觉应用程序，作者期望压缩算法可以基于特征学习定位 ROI（即语义信息），并实现低带宽和低延迟的图像压缩。

核心设计思路

为了达成上述设计要求，CICO 解决了两个关键问题：

如何使得图像特征与图像压缩之间的关系可学习。
如何对压缩图像的学习过程进行建模

对于第一个问题，CICO 以重要图像特征密度较高的图像区域应该在压缩中保留更多信息作为设计原则。创新地提出了语义感知压缩模块 (CCM) ，将上述设计选择转化为可学习的参数 (称为配置) 。对于第二个问题，作者将 CCM 的配置选择的过程建模为了一个多目标优化问题 (MOO) , 其中变量是配置，而目标是:

最大化分析准确性，如 mAP
最小化卸载数据的大小

方法

语义感知压缩算法

语义感知压缩模块（CCM）由特征提取、语义推导和压缩三个部分构成。

特征提取：低级特征提取有效地从输入图像中提炼信息。我们从一组低级表征图像特征的低级特征表示的图像特征，其中是第个图像特征，是特征类别的数量。可以应用常见的图像特征提取如 STAR、FAST、ORB 对输入图像特征点提取。

语义推导：语义推导通过三个流程将图像特征转换为语义:

平铺：通过在空间上将原始图像划分为等大小图块，由索引每个图块，我们可以得到对于第个特征，的特征密度向量。表示第个特征在第个图块中的特征密度。其中。
权重：定义加权密度向量来表示每个图块中所有特征贡献的加权密度，即。权重向量描述不同特征的重要性。通过特征密度向量与权重向量的点积得到加权密度，即。，。
非线性：使用定义在上的非线性函数将加权密度向量映射到压缩质量向量，其中表示第 i 个图块的压缩质量。是一个超参数。更高的压缩质量意味着压缩后损失更少的信息。

基础压缩：基础压缩利用语义推导的结果来实现基于现有压缩方法的自适应压缩。具体来说，应用现有的压缩方法根据压缩质量到对不同图块基于它的压缩质量进行压缩基础的压缩可表示为: ，其中表示压缩操作。压缩配置是。语义推导可以被视为输入图像到压缩质量的映射，即。最后，CCM 可以表示为:

压缩优化器

压缩优化器由探索优化器和数据采样器组成，如下图所示。探索优化器根据先前评估的配置的准确度和带宽降低量生成要评估的配置。数据采样器在每次评估时随机采样数据的子集。

1. 问题建模

定义CCM利用一个配置将图片数据集压缩为。之后使用CNN模型进行视觉分析任务。

作者对配置与准确度以及带宽减少之间进行建模。其中视觉应用程序准确度由表示，是一个抽象的准确度指标，如 top-1 准确度和 mAP 。带宽减少由标识为。表示图片的大小。的值越高，意味着压缩后的尺寸越小，越多信息丢失。优化器的目标是找到最大限度地提高准确性和降低带宽的配置，可以表述为多目标优化 (MOO) 问题：

在该模型下，作者引入探索优化器与数据采样器来来提高优化效果。

2. 探索优化器

经过实验作者发现如果仅采用随机采样的方法，几乎所有探索的配置都会导致带宽减少超过 40%，而只有一种配置导致更低带宽减少（大约 20%）。导致的配置很少探索较低的压缩率和较高的准确度的区域。

为了解决这个问题，作者使用多目标贝叶斯优化来解决这个问题（MOBO），MOBO 根据以往所有配置的性能选择新的配置使其：

正确定位最优边界
在最优边界上进行均匀采样。

下图说明 MOBO 如何用于配置空间的探索。首先设置最大迭代次数。之后初始化一组最优边界的配置为空 (第 1 行) 。接下来，使用 MOBO 开始一个循环以迭代不同的配置。在这个循环中，MOBO 根据所探索过的配置及其性能选择一个配置 𝜽 (第 4 行) 。基于配置 𝜽 过行压缩和视觉分析应用，得到它的性能和 (第 5 行) 。如果选择配置不受任何其他配置的支配，也就是和不都弱于某配置，则将此配置添加到（第 6 行）。最后，添加配置及精度到记录中。

下图演示了 MOBO 实现的优化探索与随机探索得到的分布，其中 MOBO 的配置分布更均匀，更接近精确的最优化边界。

3. 数据采样器

经过实验，在数据集的全集上对配置进行评估耗费时间较多。作者通过对数据集进行采样并衡量不同采样比例下两个目标函数的数值变化，发现两个指标在采样数目在几千张时便收敛。基于这个观察，作者每次仅采样 3200 张图片用于每个配置的评估，显著提升了评估速度。

整体架构

基于上述两个核心模块，作者提出了 CICO 的整体架构，由离线配置集生成和在线压缩两个阶段离线配置集生成。

离线分析阶段，压缩优化器 (CO) 交互与语义感知压缩模块 (CCM) 和视觉应用程序进行交互来构建配置集：

初始化：CO 首先采样出一组原始图像，从训练数据中选择要评估的配置。
图像压缩：所选图像由 CCM 基于所选配置压缩。然后，压缩图像将通过网络卸载至边缘服务器。
图像处理：在接收到压缩图像后，边缘服务器对它们进行解码，通过 CNN 模型进行分析，并返回结果。
指标收集。性能分析器计算基于收到的结果的准确性并测量卸载中减少的图像数据量（带宽减少）。指标，包括准确性和带宽减少，被发送到 CO。
优化。CO基于配置的指标，学习根据以往所有配置的性能选定下一个配置。

由该上述流程得到的配置集是近似的最优边界。

在线压缩阶段，CCM 基于终端设备的带宽条件和精度要求从配置文件选择最优配置。配置的 CCM 从测试数据中压缩图像并生成压缩的图像。然后，压缩图像被卸载，解码，并由边缘服务器中的 CNN 模型处理。

实验

作者在图像分类 (CLS) 与物体检测 (DET) 两个应用，对 CNN 与 JPEG 的方法进行实验。终端所使用的设备为树莓派 Pi4 与英伟达 Jetson Nano。而边缘服务器则基于 Intel Core i9与 Intel Core i7 构建。作者将 CICO 应用在 CNN 与 JPEG 两种方法上，得到 CICO-C 与 CICO-J 。

在带宽减少与准确度之间的权衡上，相比于基于 CNN 的方法，CICO-C 在相近的 top-1 精确度下，减少了 40% 对带宽使用。

在编码延迟上，CICO 减少了 CNN 编码器 35% 的延迟，减少了 JPEG 编码器 8% 的延迟。

总结

本演讲介绍了 CICO，一种新颖的压缩框架，可语义化和优化图像压缩，以用于在物联网视觉分析应用的卸载。CICO 是第一个低带宽和低延迟压缩框架，可以优化视觉分析任务卸载的精度和带宽。作者将压缩问题制定为多目标优化问题，利用 MOBO 的探索优化器近似多目标优化问题的最优边界。广泛的实验结果表明，与最先进的压缩方法相比，CICO 提升了物联网中的视觉分析卸载服务的端到端质量，优化了精度-带宽权衡。

附上演讲视频：

继续阅读

阅读原文