点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文将为大家介绍“RSMamba: Remote Sensing Image Classification with State Space Model”(基于状态空间模型的遥感图像分类),性能SOTA,代码已开源。
  • Title:
    RSMamba: Remote Sensing Image Classification with State Space Model
  • Paper: 
    https://arxiv.org/abs/2403.19654
  • Code: 
    https://github.com/KyanChen/RSMamba
01
/导读/
遥感图像分类是各种遥感理解任务的基础,卷积神经网络(CNNs)和Transformers的最新进展显著提高了分类精度。然而,遥感场景分类仍然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性。全图像的理解能力可以为场景区分提供更精确的语义线索。本文介绍了RSMamba,这是一种新颖的遥感图像分类架构。RSMamba基于状态空间模型(SSM),并采用高效、硬件感知设计的Mamba实现,它整合了全局感受野和线性复杂度建模的优点。为了缓解原始Mamba只能建模因果序列,不能适应二维图像数据的缺点,文中提出了一种动态多路径激活机制来增强Mamba处理非因果数据的能力。值得注意的是,RSMamba保持了原始Mamba的内在建模机制,但仍在多个遥感图像分类数据集上表现出优越的性能。
02
/引言/
遥感场景的复杂性和多样性,加上时空分辨率的变化,给自动遥感图像分类带来了重大挑战。深度学习具有自主从数据中挖掘有效特征并以端到端的方式输出分类概率的能力。在网络架构方面,主要可以分为CNNs和注意力网络。前者通过二维卷积操作逐层抽象图像特征。后者通过注意力机制捕获整个图像局部区域之间的长距离依赖性,从而实现更强大的语义响应。一定程度上,遥感图像分类精度严重依赖模型具备处理复杂多样的遥感场景和变化的时空分辨率影响的能力。基于注意力机制的Transformer能够从整个图像的有价值区域获取响应,为这些挑战提供了最佳解决方案。然而,随着输入序列长度的增加或网络的加深,其注意力计算的平方复杂性在建模效率和内存使用方面带来了重大挑战。状态空间模型(SSM)可以通过状态转换建立长距离依赖关系,并通过卷积计算执行这些转换,从而实现近线性复杂性。Mamba通过将时变参数引入到简单的SSM中并进行硬件优化,对训练和推理都非常高效。Vim和VMamba已经成功地将Mamba引入到二维视觉领域,在多个任务中实现了性能和效率的良好平衡。
本文介绍了RSMamba,一种用于遥感图像分类的高效状态空间模型。RSMamba基于Mamba实现,但引入了动态多路径激活机制,以缓解Mamba只能在单一方向上建模,且对位置不敏感的限制。值得注意的是,RSMamba被设计为保留原始Mamba块的内在建模机制,只在块外引入非因果和位置敏感的改进。具体来说,图像被划分为重叠的补丁令牌,添加位置编码形成序列。并构造了三个路径副本,即前向、反向和随机。这些序列通过使用共享参数的Mamba块建模以包含全局关系,然后通过不同路径的线性映射进行激活。
本文的主要贡献可以总结如下:
i) 提出了RSMamba,一种基于状态空间模型(SSM)的高效全局特征建模方法用于遥感图像分类。该方法在表征能力和效率方面具有显著优势,可以作为处理大规模遥感图像解释的可行解决方案。
ii) 具体来说,引入了一个位置敏感的动态多路径激活机制,以缓解原始Mamba仅限于建模因果序列,并对空间位置不敏感的限制。
iii) 在三个不同的遥感图像分类数据集进行了全面的实验,结果表明,RSMamba比其他基于CNN和Transformers的分类方法表现出显著优势。
03
/方法/
State Space Model
状态方程:
离散化:
RSMamba
RSMamba将2-D图像转化为1-D序列,并使用多路径SSM编码器捕获长距离依赖关系,如图所示。给定一幅图像,使用一个二维卷积核将局部区域映射到像素级的特征嵌入。随后,特征图被展平成1-D序列。为了保留图像内部的相对空间位置关系,引入位置编码,整个过程如下,
RSMamba并未像ViT那样使用[CLS]标记来聚合全局表示。相反,该一维序列被输入到多个动态多路径激活的Mamba块中,用于建模长距离依赖关系。随后,通过对序列平均池化得到类别预测所需的密集特征。这个过程可以迭代地描述如下,
Dynamic Multi-path Activation
原始的Mamba用于对1-D序列进行因果建模,为了增强其对2-D数据的处理能力,引入了一个动态多路径激活机制。重要的是,这种机制为了保留原始Mamba块的结构,仅在块的输入和输出上操作。具体来说,复制了三份输入序列,建立了三个不同的路径,即前向路径、反向路径和随机路径,并利用一个参数共享的普通Mamba混合器分别对这三个序列中的标记之间的依赖关系进行建模。随后,我们将序列中的所有标记恢复到正确的顺序,并使用一个线性层来压缩序列信息,从而建立了三个路径的门控。然后,这个门被用来激活三种不同信息流的表示,如上图所示。第i个块的过程如下所述,
Model Architecture
04
/实验/
为了评估所提出方法的效果,在三个不同的遥感数据集上进行了广泛的实验:UC Merced土地利用数据集(UC Merced),AID,和NWPU-RESISC45数据集(RESISC45)。每个数据集都包含不同的地物类别和图像数量。
05
/结论/
本文引入了一种新的状态空间模型用于遥感图像分类,称为RSMamba。RSMamba同时利用了CNN和Transformer的优点,特别是它们的线性复杂性和全局感受野。RSMamba引入了一个动态多路径激活机制,以减轻原始Mamba中固有的单向建模和位置不敏感的限制。RSMamba保持了Mamba的内部结构,并提供了灵活性,可以轻松扩展参数以适应各种应用场景。在三个不同的遥感图像分类数据集上进行的实验评估表明,RSMamba可以超越基于CNN和Transformer的其他最先进的分类方法,具有作为下一代视觉基础模型的主干网络的巨大潜力。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和遥感图像交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和遥感微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者遥感+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

继续阅读
阅读原文