重磅开源！无卷积！TimeSformer：首个基于Transformer的视频理解网络

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

部分转载自：机器之心 | 编辑：小舟、陈萍

前不久，CVer 第一时间推送了TimeSformer的论文，而就在近两天，该工作重磅开源了！现第一时间分享给大家，相信会对部分CVers的科研、工作有所帮助。视觉Transformer的热点，现在谁不"爱"追呢？！

Facebook AI 提出新型视频理解架构：完全基于Transformer，无需卷积，训练速度快、计算成本低。

TimeSformer 是首个完全基于 Transformer 的视频架构。近年来，Transformer 已成为自然语言处理（NLP）领域中许多应用的主导方法，包括机器翻译、通用语言理解等。

TimeSformer 在一些具有挑战性的动作识别基准（包括 Kinetics-400 动作识别数据集）上实现了最佳的性能。此外，与 3D 卷积神经网络（CNN）相比，TimeSformer 的训练速度大约快了 3 倍，而推断所需的计算量不足其十分之一。

Is Space-Time Attention All You Need for Video Understanding?

论文链接：https://arxiv.org/abs/2102.05095

代码：https://github.com/facebookresearch/TimeSformer

此外，TimeSformer 的可扩展性使得在更长的视频片段上训练更大的模型成为可能。这为 AI 系统理解视频中更复杂的人类行为打开了大门，对需要理解人类复杂行为的 AI 应用来说是极为有益的。

在 Kinetics-400(左) 和 Kinetics-600(右) 两个动作识别基准上，TimeSformer 与当前具有 SOTA 性能的 3D 卷积神经网络的视频分类准确率比较结果。TimeSformer 在这两个数据集上都达到了最优的准确率。

TimeSformer：全新的视频理解架构

传统的视频分类模型利用了 3D 卷积滤波器。然而这样的滤波器在捕获局部时空区域内的短程模式方面是有效的，但是它们不能对超出其接受域的时空依赖关系进行建模。

TimeSformer 仅建立在 Transformer 模型中使用的自注意力机制上，这使得捕获整个视频的时空依赖关系成为可能。为了将 Transformer 应用到视频中，该模型将输入视频解释为从每个帧中提取的图像 patch 的时间 - 空间序列。

这种格式类似于 NLP 中使用的格式，在 NLP 中，Transformer 将句子视为从每个单词中计算出的特征向量序列。正如 NLP Transformer 通过将每个单词与句子中的其他单词进行比较来推断其含义一样，该模型通过显式地将每个 patch 与视频中的其他 patch 进行比较来捕获每个 patch 的含义。这也是所谓的自注意力机制，这使得捕获相邻 patch 之间的短程依赖性以及远距离 patch 之间的远程关联成为可能。

传统的 3D 卷积神经网络计算成本比较高昂，因为它们需要在视频中所有的空间 - 时间位置上使用大量的滤波器。而 TimeSformer 具有较低的计算成本，因为它：（1）将视频分解成一组不重叠的 patch；（2）采用自注意力，避免对所有 patch 对进行详尽的比较。研究者将此方案称为分割空间 - 时间注意力，其思想是依次应用时间注意力和空间注意力。

当使用时间注意力时，每个 patch（例如在下图中，蓝色的正方形）只与其他帧中相同空间位置的 patch（绿色正方形）进行比较。如果视频包含 T 帧，则每个 patch 只进行 T 次时间上的比较。当使用空间注意力时，每个 patch 仅与同一帧内的 patch（红色 patch）进行比较。

因此，如果 N 是每帧中的 patch 数，则分割空间 - 时间注意力只对每个 patch 执行一共（T+N）次比较，而不是联合空间 - 时间注意力的方法所需的（T×N）次比较。此外，该研究发现与联合空间 - 时间注意力相比，分割空间 - 时间注意力不仅更有效，而且更准确。

TimeSformer 的可扩展性让它能够在极长的片段（例如，102 秒时长的 96 帧序列）上运行，以执行超长程时间建模，这明显不同于当前的 3D CNN。后者仅限于处理至多几秒钟的片段。而识别长时间活动是一种重要需求。

例如，假设有一个制作法式吐司的视频。一次分析几秒钟的 AI 模型可能会识别出一些原子动作（例如打鸡蛋或将牛奶倒入碗中）。但对每个单独动作进行分类，对于分类复杂活动是远远不够的。TimeSformer 则可以在更长的时间范围内分析视频，从而揭示出原子动作之间明确的依赖关系（例如将牛奶和已经打好的鸡蛋混合）。

TimeSformer 的高效让在高空间分辨率（例如高达 560x560 像素的帧）和长视频（包括高达 96 帧）上训练模型成为可能。

上图展示了由 TimeSformer 学习的自注意力热图的可视化。第一行是原始帧，第二行通过自注意力给出的视频分类重要性来加权每个像素的颜色（被认为不重要的像素会变暗）。TimeSformer 学习参与视频中的相关区域，以执行复杂的时空推理。

TimeSformer 在Kinetics-400、Kinetics-600等数据集上的性能表现：

促进更多领域的发展

为了训练视频理解模型，目前最好的 3D CNN 只能使用几秒长的视频片段。使用 TimeSformer 可以在更长的视频片段（长达几分钟）上进行训练。这可能会极大地促进研究工作，以教会机器理解视频中复杂的长动作。对于许多旨在了解人类行为的 AI 应用程序（例如 AI 助手）而言，这是重要的一步。

此外，TimeSformer 的低推理成本是迈向未来实时视频处理应用的重要一步，例如 AR/VR，以及为可穿戴摄像机视频提供服务的智能助手。研究者相信该方法的成本降低将使更多的研究人员致力于解决视频分析问题，从而加快该领域的研究进展。

原文链接：https://ai.facebook.com/blog/timesformer-a-new-architecture-for-video-

上述论文和代码下载

后台回复：TimeSformer ，即可下载上述论文PDF

后台回复：CVPR2021，即可下载CVPR 2021论文和开源代码合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！CVer-Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，才能通过且邀请进群

▲长按加微信群

▲点击上方卡片，关注CVer公众号

整理不易，请给CVer点赞和在看！

继续阅读

阅读原文