4K图像理解轻松拿捏！IXC2-4KHD：开创性的大型视觉语言模型！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和扩散模型】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

陈林投稿自凹非寺

转载自：量子位（QbitAI）

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。

上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制，该工作将多模态大模型的最大输入图像提升到超过4K （3840 x1600）分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。

发布三天，该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首页截图（分辨率为2550x3300），并询问论文哪个模型在MMBench上的性能最高。

需要注意的是，该信息在输入截图的正文文字部分并未提及，仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题，IXC2-4KHD成功理解了雷达图中的信息，正确回答问题。

面对更加极端分辨率的图像输入（816 x 5133），IXC2-4KHD轻松理解图像包括7个部分，并准确说明了每个部分包含的文字信息内容。

随后，研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力，其中5项评测（DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench）关注模型的高分辨率图像理解能力。

仅仅使用7B参数量，IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果，展现了不局限于高分辨率图像理解，而是对各种任务和场景的泛用能力。

△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率？

为了实现4K动态分辨率的目标，IXC2-4KHD包括了三个主要设计：

（1）动态分辨率训练：

△4K分辨率图像处理策略

在IXC2-4KHD的框架中，输入图像在保持长宽比的情况下，被随机放大到介于输入面积和最大面积（不超过55x336x336，等价于3840 x1617分辨率）的一个中间尺寸。

随后，图像被自动切块成多个336x336的区域，分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入，同时也弥补了高分辨率训练数据不足的问题。

实验表明，随着动态分辨率上限的增加，模型在高分辨率图像理解任务（InfographicVQA、DocVQA、TextVQA）上实现了稳定的性能提升，并且在4K分辨率仍然未达到上界，展现了更高分辨率进一步扩展的潜力。

（2）添加切块布局信息：

为了使模型能够适应变化丰富的动态分辨率，研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的，研究人员采取了一种简单的策略：一个特殊的‘换行’（’\n’）令牌被插入到每一行的切块之后，用于告知模型切块的布局。实验表明，添加切块布局信息，对于变化幅度比较小的动态分辨率训练（HD9代表切块区域个数不超过9）影响不大，而对于动态4K分辨率训练则可以带来显著的性能提升。

（3）推理阶段扩展分辨率

研究人员还发现，使用动态分辨率的模型，可以在推理阶段通过增加最大切块上限直接扩展分辨率，并且带来额外的性能增益。例如将HD9（最多9块）的训练模型直接使用HD16进行测试，可以在InfographicVQA上观察到高达8%的性能提升。

IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平，研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈，因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接：
https://arxiv.org/pdf/2404.06512.pdf
项目链接：
https://github.com/InternLM/InternLM-XComposer

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和多模态学习交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和多模态学习微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者多模态学习+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群