机器之心PRO · 会员通讯 Week 52
---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----
1. 多模态趋势下,Transformer 架构并非唯一解
CNN 和 Transformer,做多模态谁更强?基于 Transformer 的多模态模型有哪些局限性?新的 CNN 架构「UniRepLKNet」有哪些优势?...
2. Google DeepMind 的基础模型+机器人综述二连击
两篇综述分别作者都有谁?两篇综述对同一主题的讨论有何异同?什么是 RFM?两篇综述分别关注哪些瓶颈和未来研究方向?...
3. 大模型推理加速方法一览
苹果提出的通过在闪存中存储模型参数来加速大模型推理,有哪些独特之处?现阶段,LLM 推理加速方法都有哪些?...
...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 10 项,国外方面  9 项...
本期通讯总计 30962 字,可免费试读至 6 % 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读 ① 多模态趋势下,Transformer 架构并非唯一解

日期:12 月 24 日
事件:腾讯 AI 实验室与港中文联合团队提出了新 CNN 架构「UniRepLKNet」,在图像识别精度和速度上都超过了 Transformer 架构模型。
要点速览
1、UniRepLKNet 的设计遵循了四条 guideline,包括使用大卷积核来保证大感受野,使用 depthwise 小卷积来提高特征抽象层次,以及使用高效结构来增强模型的深度和表示能力。
2、UniRepLKNet 的每个 block 主要由 depthwise conv、SE Block 和 FFN 三个部分组成。其中 depthwise conv 可以是大卷积核,也可以只是 depthwise 3x3。
3、UniRepLKNet 在多个图像任务上表现出色,包括 ImageNet、COCO 和 ADE20K,其精度和速度都达到了 SOTA 水平。同时,切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越 SOTA。
① UniRepLKNet-XL 的 ImageNet 精度达到 88%,而且实际速度是 DeiT III-L 的三倍;
② 在 COCO 目标检测任务上,UniRepLKNet-L 不及 InternImage-L,但是 UniRepLKnet-XL 超过了 InternImage-XL。
③ 在 ADE20K 语义分割上,UniRepLKNet 的优势相当显著,最高达到 55.6 的 mIoU。与 ConvNeXt-XL 相比超出了整整 1.6。
4、此外,为了验证 UniRepLKNet 处理时序数据的能力,该工作还挑战了一个数据规模超大的《Nature》级别的任务:全球气温和风速预测。实验结果显示,UniRepLKNet 在时序预测任务上超越了基于 Transformer 的前 SOTA 模型。
5、研究者认为,「CNN 在大一统这一点上可能不弱于 Transformer」。Transformer 和 CNN 仅仅是相互交融的两种结构设计思路,没有理由认为前者具有本质的优越性。在该项工作上,证明了 CNN 在点云、音频、视频方面的优势。
CNN VS.Transformer,做多模态谁更强?[2] [3] [4]
1、一直以来,Transformer 都被认作为 AI 大模型的主流架构。但在近期的一些研究工作中,RWKV、Mamba、Hyena,以及 Recurrent Memory Transformers 等新的架构出现,也许「最先进的模型仍然是基于 Transformer 」的局面未来可能会改变。
2、腾讯 AI 实验室与港中文联合团队提出的这项新 CNN 架构「UniRepLKNet」,在图像识别精度和速度上均超过了 Transformer 架构模型。作者认为,Transformer 和 CNN 仅仅是相互交融的两种结构设计思路,没有理由认为前者具有本质的优越性。
3、此前,CNN 长期以来一直是图像处理任务的首选。
① CNN 擅长通过卷积层捕获局部空间信息,从而实现分层特征提取。CNN 擅长从大量图像数据中学习,并在图像分类、目标检测和分割等任务中效果显著。
② CNN 由于其可并行性而具有更高计算效率,这使得它们适用于需要实时运行和资源受限的应用程序。
2、在多模态学习中,Transformer 的输入可以包含一个或多个 token 序列,每个序列的属性(例如,模态标签、顺序)可以自然地进行 MML 而无需架构修改。此外,通过控制 self-attention 的输入模态可以简单地实现学习每个模态的特异性和模态间的相关性。
① Transformer 的优势在于它们可以以与模态无关的方式工作。因此,它们与各种模态(和模态的组合)兼容。
② 相较于 CNN, Vision Transformer 拥有全局注意力和上下文理解等至关重要的优势。
③ 但 Vision Transformer 通常需要大量的训练数据才能达到与 CNN 相当的性能。
3、目前,大多数先进的模型都是以 CNN-Transformer 混合体的形式设计的。这些模型主要在初期阶段使用卷积块,并将 Transformer 块的堆叠保留到最后阶段。目前,无论是卷积块还是 Transformer 块,在现有工作中都不能同时实现高效性和性能。
基于 Transformer 的多模态模型又有哪些局限性?[1]
1、融合困难
① 一般来说,MML Transformers 主要在三个常规级别融合多种模态的信息:输入(即早期融合)、中间表示(即中间融合)和预测(即晚期融合)。将两种模态的表示直接输入标准注意力模块可以实现中间融合和潜在适应,最终得到最终双模态表示的后期融合。
② 选择合适的融合方法(早期、晚期或中间融合)是实现高效多模态学习的关键难点。
2、对齐挑战
① 现实世界的数据通常以多种具有内在同步的模态出现(例如,视听对应),这支持了跨模态对齐。最近,基于 Transformers 的对齐导致利用大量网络数据(例如,图像-文本对)进行视觉和语言任务的激增。主要思想是将两种模态映射到一个共同的表示空间中,并在配对样本上进行对比学习。
② 跨模态对齐是许多实际应用程序的关键因素,这要求模型能够理解和处理来自不同源的数据之间的复杂相互关系,确保数据间的有效协同。
3、可迁移性难题
继续阅读
阅读原文