顶刊TPAMI 2024！白翔团队：将CLIP模型转换为端到端文本识别器

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和OCR】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

本文简要介绍TPAMI 2024录用论文“Turning a CLIP Model into a Scene Text Spotter”的主要工作。这篇文章介绍了一种新方法FastTCM，专注于直接将CLIP 模型用于文本检测和端到端文本识别，无需设计特殊的预训练代理任务。

一、研究背景

大规模对比语言-图像预训练CLIP模型[1]通过利用预训练的视觉和语言知识在各种下游任务中展现了巨大的潜力。场景文本包含丰富的文本和视觉信息，与像 CLIP 这样的视觉语言大模型有着固有的联系。现有利用视觉语言预训练的工作[2-4]通常包含两个阶段：第一个阶段需要设计合适的代理任务进行预训练，充分挖掘文本知识，使得视觉编码器能够较好地感知到文本；第二个阶段再对第一个阶段预训练好的视觉编码器进行微调，使其能够较好地执行下游的文本检测或者端到端文本识别任务。这篇文章介绍了一种新方法FastTCM，专注于直接将CLIP 模型用于文本检测和端到端文本识别，无需设计特殊的预训练代理任务。

图1 现有利用视觉语言知识进行文本检测或者端到端文本识别的不同范式

二、方法原理简述

FastTCM整体框架如图2所示，包含CLIP的图像编码器、文本编码器、视觉提示模块、文本提示单元和下游的文本检测或端到端文本识别头。其中，文本提示单元包含文本提示模块和双模态相似匹配机制。首先视觉编码器对图像进行编码，得到全局视觉特征；其次，文本提示模块通过可学习的元查询和预定义的提示构造有利于下游任务的提示，并送入文本编码器编码得到文本嵌入；接着，双模态相似匹配机制计算当前图像特征和文本嵌入的相似度，并将该相似度和图像特征相乘叠加到文本嵌入生成新的文本嵌入，该机制可以根据输入的视觉图像特征动态的调整文本编码器的输出，充分挖掘CLIP中预训练的文本知识，有利于后续提取细粒度的视觉图像特征。之后的流程和会议版本的工作[5]一致。在训练时文本提示模块的参数需要参与训练优化，当训练完成时该模块参数被固定，在推理时可以将文本编码器部分的输出离线计算，以此来减少推理时间。

图2 FastTCM方法整体框架图

三、主要实验结果

作者将FastTCM应用于现有的文本检测方法和端到端文本识别方法上进行了实验验证，发现FastTCM可以应用于改进现有的场景文本检测方法和端到端文本识别方法，并且速度有所提升，同时可以提升现有方法的小样本学习能力和泛化能力。

表1 分别提升现有的文本检测方法和端到端文本识别方法的性能

表2 提升现有的文本检测方法和端到端文本识别方法上的小样本学习能力

表3 提升现有的文本检测和端到端文本识别方法上的泛化学习能力

作者进一步在旋转目标检测任务上进行了验证，并在遥感图像数据集DOTA-v1.0[6]上进行了实验，本文提出的方法依旧可以适用于遥感目标检测，下图展示了可视化结果。

图 3 在旋转目标遥感数据集DOTA-v1.0上的可视化检测结果

四、未来展望

本文提出了一种利用大规模对比语言-图像预训练 CLIP 模型来提升文本检测和端到端文本识别下游任务，对迈向通用场景的文本感知任务更近了一步，未来可以继续探索借助更强大的多模态大模型[7]的能力来实现更通用的文本感知和理解任务。

五、相关资源

论文链接：https://ieeexplore.ieee.org/document/10476714

代码：https://github.com/wenwenyu/TCM

参考文献

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in ICML, 2021.

[2] Q. Wan, H. Ji, and L. Shen, “Self-attention based text knowledge mining for text detection,” in CVPR, 2021.

[3] S. Song, J. Wan, Z. Yang, J. Tang, W. Cheng, X. Bai, and C. Yao, “Vision-language pre-training for boosting scene text detectors,” in CVPR, 2022.

[4] C. Xue, W. Zhang, Y. Hao, S. Lu, P. H. S. Torr, and S. Bai, “Language matters: A weakly supervised vision-language pretraining approach for scene text detection and spotting,” in ECCV, 2022.

[5] W. Yu, Y. Liu, W. Hua, D. Jiang, B. Ren, and X. Bai, “Turning a clip model into a scene text detector,” in CVPR, 2023.

[6] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. J. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in CVPR, 2017.

[7] Z. Li, , B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai,“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models,”in CVPR 2024.

原文作者:Wenwen Yu, Yuliang Liu*, Xingkui Zhu, Haoyu Cao,Xing Sun, Xiang Bai

撰稿：余文文 | 编排：高学

审校：连宙辉 | 发布：金连文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和医学影像交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者医学影像+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！
▲扫码加入星球学习
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

继续阅读

阅读原文

顶刊TPAMI 2024！白翔团队：将CLIP模型转换为端到端文本识别器

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和OCR】微信交流群

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和OCR】微信交流群