让机器准确「看懂」手物交互动作，清华大学等提出GeneOH Diffusion方法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

在机器学习和计算机视觉中，让机器准确地识别和理解手和物体之间的交互动作，那是相当费劲。

要么拿个杯子半天抓不到杯把：

要么打开一个盒子手部跟触电了似的：

抑或是各种稀奇古怪的手部「畸变」：

这都是因为手物交互动作中噪声干扰，比如手和物体的遮挡等，导致机器难以获得准确的信息。那么，如何解决这些「讨厌」的噪声呢？

近日，清华大学、上海人工智能实验室和上海期智研究院发布了一篇名为《 GeneOH Diffusion:Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion》的论文，提出了一种新的去噪方法 ——GeneOH Diffusion。该研究已被ICLR 2024接收。

论文：
https://arxiv.org/abs/2402.14810
代码地址：
https://github.com/Meowuu7/GeneOH-Diffusion
项目网站：
https://meowuu7.github.io/GeneOH-Diffusion/
YouTube 视频：
https://youtu.be/ySwkFPJVhHY
Hugging Face Demo：
https://huggingface.co/spaces/xymeow7/gene-hoi-denoising

GeneOH Diffusion 主要用于改善手和物体交互（Hand-Object Interaction, HOI）过程中的噪声问题。简单来说，就是当机器或者计算机视觉系统尝试追踪和理解手和物体之间的交互时，经常会因为各种原因（比如遮挡、光线变化等）出现误差。这篇论文提出的技术就是用来减少这些误差，使得机器能够更准确地理解和模拟手与物体之间的交互。

研究动机

干净的手物交互数据在很多下游任务，如 AR、VR 和 Robotics 中都有广阔的应用前景，但如何以一种可扩展的方式获取自然真实的手物交互数据是一个极具挑战性的问题。研究者无论是采用数据采集的策略，设计算法从其他数据模态中获得手物交互序列，还是借助生成模型的强大生成能力，所得到的数据都不可避免地被各种各样无法预测的噪声干扰（图 1）。这些噪声可能来源于采集设备有限的精度或者相关算法的误差。

一种能够从含有噪声的数据中恢复出清晰、真实手物交互序列的方法，构成了连接低成本手物交互数据源和高质、实用数据之间的桥梁。正是在这一过程中，手物交互去噪模型的独特价值和重要性得以凸显。

图 1：手物交互序列中多样且复杂的噪声类型

从含有噪声的交互序列中恢复出真实的数据，这是一个本质上困难的重构问题。在实际的去噪应用场景中，由于输入数据的物体、交互动作和噪声特征都具有不可预测性，同时去噪模型的训练数据又受到限制，因此模型的泛化能力变得尤为关键，同时也是设计去噪模型时最具挑战性的地方。

尽管交互序列去噪问题并非一个全新的研究领域，但在以往的工作中，无论是采用基于规则的方法还是数据驱动的方法，「如何在训练数据有限的情况下，构建一个具有高度泛化能力的模型」这一问题并未得到充分的重视和深入研究。而正是在这样的背景下，GeneOH Diffusion（如图 2 所示）旨在探索和实现可泛化的手物交互去噪技术。

图 2：通过在有限的数据上进行训练，GeneOH Diffusion 可以很好地泛化到新颖的带有复杂噪声特征的交互序列上（图 a），并可以从一段输入中恢复出多样且自然的交互序列（图 b），且是一个实用的工具（图 c）。

GeneOH Diffusion：可泛化的手物交互序列去噪方法

GeneOH Diffusion 重新思考了设计数据驱动的去噪模型的两个关键问题 ——「什么是易于泛化的手物交互序列表示方法」和「什么是对噪声特征不敏感，且易于在不同类型噪声数据上泛化的去噪方法」，并通过两个关键性的设计来增强去噪模型的泛化性。

首先，为了有效增加模型对新颖物体和手物交互动作的可泛化性，GeneOH Diffusion 通过在局部接触区域参数化交互信息，来对齐各种各样的手物交互序列。

具体来讲，GeneOH Diffusion 设计了一套以广义接触点为中心的、包含手物时空交互信息的序列表征，名为 GeneOH。GeneOH 包括位姿标准化后的手物轨迹、以广义接触点为中心的手物空间关系表征、以及以广义接触点为中心的手物时间关系表征。（图 3）

图 3：可泛化的手物交互序列表征 GeneOH

为了增加去噪模型泛化到新噪声分布上的能力，GeneOH Diffusion 摒弃了前人确定性映射的去噪方法，提出使用扩散模型刻画手物交互信息的分布，并通过先扩散 — 后去噪的方式，极大地提高了模型对具有没见过的复杂噪声特征的数据的泛化能力。

具体而言，GeneOH Diffusion 先将输入的有噪声的数据通过前向扩散的方式对齐到一个统一的噪声空间，之后对扩散的数据进行去噪。最后，为了去除复杂多样的手物交互序列中的噪声，GeneOH Diffusion 设计了一种有效的层级式去噪方法，通过对不自然的手型、有噪声的手物空间关系和有噪声的手物时间关系进行逐步去噪，最终恢复出一段自然真实的手物交互序列（图 4）。

图 4：层级式去噪和易于在不同噪声类型之间泛化的先扩散 - 后去噪的去噪范式

可泛化去噪结果展示

GeneOH Diffusion 仅在有限的 GRAB 数据集上进行训练，尽管它只接触过有限的交互序列和简单的扩散模型中的高斯噪声，但它仍然能够有效地泛化到新的交互序列上。这些新序列不仅包含了未见过的物体，还涵盖了创新的交互动作，并且带有复杂的、真实世界中的噪声特征（见图 5）

图 5：在 GRAB，GRAB（Beta），HOI4D 和 ARCTIC 上的去噪结果部分展示

最令人惊讶的是，GeneOH Diffusion 仅仅在包含刚性物体交互数据上进行了训练，但它依然能够近乎完美地复原出一段自然真实的人打开剪刀的序列（见图 6）。即便输入数据未能提供有效的接触信息，并且包含了由视觉算法错误导致的异常噪声，经过 GeneOH Diffusion 去噪处理后的序列仍然展现出了合理的接触点、自然的手部运动轨迹，以及手物运动一致的操控动作。