将所有有用的信息整合到一张图片中：大型多模态模型能够进行图片内的学习

论文题目：

All in a Single Image: Large Multimodal Models are In-Image Learners

论文链接：

https://arxiv.org/abs/2402.17971

开源链接：

https://github.com/AGI-Edgerunners/In-Image Learning

动机和背景

近年来，大语言模型取得了显著的成功。尽管 GPT-4V 有强大的文本理解和图片输入能力，但仍存在许多问题。例如，在读取一张复杂图片时，无法完全理解图像中呈现的信息。在本文中，我们提出了一种新的上下文学习机制——In-Image Learning，它将所有可能有用的信息，包括样例，视觉线索和思维链等等整合在一张图片上，有助于释放 GPT-4V 的性能。

方法

1. T-ICL with additional image-to-text models（T-ICL-Img）：为了将大型语言模型（LLMs）从自然语言处理（NLP）任务适配到多模态任务，一个常见的策略是将相应的图像转换成文本描述。

2. Visual-text interleaved in-context learning（VT-ICL）：尽管 T-ICL-Img 取得了显著的效果，但在将视觉输入转换为文本描述时存在丢失信息的风险。

为了避免这个问题，可以为上下文学习准备交错的图文对，直接整合到大语言模型（LLMs）中。

3. In-Image Learning（IIL）：GPT-4V 在理解图像中的符号和数字等视觉线索方面具有很高的熟练度。

在本文中，我们将样例范本、视觉线索、思维链整合在一张图片上。将有价值的信息整合到单一图像中提供了三个主要好处。

首先，它有效地传达了仅凭文字无法准确描述的复杂图像。其次，它允许信息被放置在图像的任何位置，不像之前的上下文学习方法那样对信息的排序敏感。第三，仅使用一个图像作为输入减少了对冗长输入的需求，从而减轻了输入负担并避免超出大模型（LMMs）的输入限制（注意：我们没有包含任何提示在测试样本上）。

4. Selection：本文提出的 In-Image Learning 擅长处理仅用文本无法准确描述的复杂图像，而 VT-ICL 能更好地利用文本信息来提升那些可以被文本轻易描述的图像的性能。

为了结合这两种方法的优点，我们使用 GPT-4V 作为一种选择器。首先提示 GPT-4V 为给定数据示例的图像生成描述。然后让 GPT-4V 根据生成的描述与图像进行对比打分，范围从 1 到 4 分。1 或 2 分表明图像难以描述，使其更适合 In-Image Learning 方法，3 或 4 分表明图像易于描述，使用 VT-ICL 方法更适合这个数据示例。

实验结果

我们在3个数据集上进行了测试，分别是：（1）MathVista；（2）HallusionBench；（3）VQA.

MathVista minitest 数据集上不同方法和模型上的测试结果如下：

HallusionBench 数据集上不同方法和模型上的测试结果如下：

VQA 数据集在不同方法和模型上的测试结果如下：

我们使用 MathVista 数据集上的随机 100 个数据进行消融实验，结果如下，说明 In-Image Learning 方法能激发 GPT-4V 的潜力。

此外，我们为了探究其他影响性能的因素。对分辨率比例、示例数量及测试例子位置等各种因素下，使用 VQA 数据集进行了测试，结果如下：

总结

在本文中，我们提出了 In-Image Learning 的方法，以增强 GPT-4V 的能力。In-Image Learning 将示范例子、视觉线索和指令结合到单一图像中。

In-Image Learning 擅长处理复杂图像，而 VT-ICL 更适合那些可以轻易通过文本描述的图像。为了在多模态任务中利用这两种方法的优势，我们提议使用 GPT-4V 作为选择器，以确定给定任务中每个多模态数据示例的适当方法。

通过在 MathVista 和 Hallusionbench 上的全面实验，我们展示了 In-Image Learning 在复杂推理任务中的有效性，以及在减轻语言幻觉和视觉错觉方面的作用。我们还检查了图像分辨率和示范例子位置等因素的影响，进一步凸显了图像内学习的多功能性和潜力。

对于未来的工作，我们计划在更多的文字难以描述的任务上验证 In-Image Learning 的有效性，以及通过训练的方式来加强 In-Image Learning。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

继续阅读

关键词

语言模型

多模态

数据集

图片

问题

最新评论

推荐文章

作者最新文章

你可能感兴趣的文章

Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].

版权声明：以上内容为用户推荐收藏至CareerEngine平台，其内容（含文字、图片、视频、音频等）及知识版权均属用户或用户转发自的第三方网站，如涉嫌侵权，请通知[email protected]进行信息删除。如需查看信息来源，请点击“查看原文”。如需洽谈其它事宜，请联系[email protected]。