港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告

2023 年 12 月 6 日，谷歌发布了最新一代的通用人工智能大模型 Gemini，并报告在多项测试中取得了最先进的结果，甚至在 MMLU 测试中首次取得了超过人类专家的成绩，人工智能似乎进入 Gemini 时代。

直到北京时间上周三晚谷歌才正式开放 Gemini Pro 版本的 API，使得用户可以亲自体验。Gemini 的实际多模态能力究竟如何呢？是否真如他们技术报告和宣传视频中展示的那样？是否超越了 GPT-4V？和其他开源模型相比又如何呢？

在 Gemini Pro 的 API 开放后不到一周，港中文联合多加单位共同公布了一份长达 128 页的评测报告，将 Gemini Pro 与目前最先进的 GPT-4V 进行对比，探索其是否能挑战 GPT-4V 的在多模态领域的霸主地位，并和最新的开源大模型 SPHNIX 进行比较，揭示开源模型与黑盒系统之间的差距。

论文链接：https://arxiv.org/pdf/2312.12436.pdf

项目链接：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

报告对 Gemini Pro 的视觉理解能力进行了初步探索，全面涵盖了基础感知（Fundamental Perception）、高级认知（Advanced Cognition）、挑战性视觉任务（Challenging Vision Tasks）和各种专家能力（Expert Capacity）四个领域，在 17 类任务项上进行了定性比较，并在专门针对多模态大模型设计的 MME 评测基准测试上进行定量评估。

定性样例测试表明，虽然 GPT-4V 和 Gemini Pro 表现出不同的回答风格和偏好，但它们可以表现出相当的视觉推理能力，而 SPHNIX 在领域泛化性方面仍然落后于它们。

具体来说，GPT-4V 倾向于阐述详细的解释和中间步骤，而 Gemini Pro 更喜欢输出直接而简洁的答案。定量基准测试展示了 Gemini Pro 令人印象深刻的多模态理解性能，以及其成为 GPT-4V 强有力挑战者的潜力。

对 Gemini 和 GPT-4V 的研究还观察到多模态大模型在视觉理解、逻辑推理和提示鲁棒性等方面的一些常见问题，这表明在距离实际可落地的通用多模态大模型仍然有很长的路要走。

下面我们逐一介绍报告中的具体内容。

定量测试

专为多模态大语言模型专门设计的评测基准 MME 试涵盖目标存在性判断、物体计数、位置关系、颜色判断、OCR 识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等感知任务，以及常识推理、数值计算、文本翻译和代码推理等认知任务，并为每个测试任务图像设计判断“是”“否”的问题以便于指标统计。

在感知和认知的综合表现方面，Gemini Pro 表现出优异的表现，得分为 1933.4，紧随其后的是 GPT-4V 模型，得分为 1926.6。

另外我们可以观察到：

1. GPT-4V 拒绝回答名人相关的问题，导致其在名人识别任务上的得分为 0 分，这在后续的定性实验中也有体现；

2. Gemini 和 GPT-4V 在位置识别任务上表现都不佳，表明他们对空间位置信息不敏感，这在后续的定性实验中也反映了出来；

3. 开源模型 SPHINX 在感知任务上与 GPT-4V 以及 Gemini 平齐甚至更优，这可能是因为 SPHINX 在训练时关注了很多感知类的任务比如目标检测；但在认知任务上，比如常识推理、数值计算、文本翻译和代码推理等，SPHINX 距离 GPT-4V 以及 Gemini 有较大差距。

基础感知

基本感知是指多模态大模型处理和解释感官数据（主要是视觉数据）的能力，以对其感知的环境产生连贯的理解。感知能力直接影响模型在高阶任务中的能力，因为它决定了模型获取和处理原始视觉输入的准确性和有效性。报告中分别测试了模型的对象级感知能力、场景级感知能力和基于知识的感知能力。具体包括以下细分任务：

1. 空间关系

无论是 Gemini Pro 还是 GPT-4V，似乎都很难识别左右。更进一步。通过上下文少样本学习帮助模型理解什么是“左”，只用 GPT-4V 成功学习了这个概念，做出了正确的回答。

2. 物体计数

在前三个简单样例中，模型都取得了较准确的结果，但在较复杂的样例中，模型都容易出错。在 NBA 球员图片中共有 42 名球员，Gemini Pro 的答案（41 人）已经非常接近正确答案了。

3. 找不同

所有模型都具有感知图像之间细粒度差异的潜力，尽管它们的性能并不稳定。在图 5 中，实际只有三处差异，当模型被要求识别五处差异时，Gemini Pro 和 GPT-4V 都捏造了五处差异并做出了错误的响应。

4. 视觉错觉

左侧样例中，两个梨实际上具有相同的亮度。然而，点缀的黑白条纹产生了一种错觉，使右侧的梨显得更亮。Gemini Pro 识别到两者具有相同的亮度，而 GPT-4V 和 SPHNIX 被视错觉所欺骗，认为右边的梨更亮。

5. 场景理解

模型都能够描绘场景中的关键视觉元素。相比之下，GPT-4V 显示出优越的性能，描述更加详细，并且幻觉的实例也更少。

6. 视频场景理解

从视频中抽取三个时刻的关键帧，Gemini Pro 能够将不同帧的信息整合成一个连贯的场景描述。特别地，第一帧显示两张圆桌和一盆植物，第二帧显示一张圆桌和三盆植物。Gemini Pro 成功地融合了两帧中的信息，准确地将场景描述为包含两张圆桌和三盆植物。GPT-4V 只是逐帧描述图像的内容。相比之下，SPHNIX 的描述并没有表现出对图像序列的全面理解。

7. 常识

SPHNIX 在应用社会规范方面的表现与 Gemini Pro 和 GPT-4V 相当，但在物理规律的应用方面表现稍差。如图 14 所示，Gemini Pro 和 GPT-4V 可以准确地选择厚重的衣服用于南极洲的寒冷天气防护，而 SPHNIX 虽然知道寒冷天气需要穿厚衣服，但它错误地将 T 恤图像识别为适合防寒。

8. 学科知识

报告中测试了模型对物理化学、历史地理等学科知识的了解。Gemini Pro 和 GPT-4V 都拥有与这些样例相关的学科知识。

9. 多元文化习俗

测试样例呈现具有鲜明的民族和文化特征的图像，并提示模型提供描述。模型都能够理解图像中描绘的种族和文化元素，但 SPHNIX 不具备多语言能力。

10. 世界知识

报告研究了模型识别名人、地标、标志、电影、食物、植物、动物等的能力。模型通常可以正确识别它们。此外，当被问及与真实人物相关的信息时，GPT-4V 通常会选择不回应，但在图 23 右侧样例中，或许因为图像中有人物相关信息，GPT-4V 罕见地回答了问题。

高级认知

在基本感知之上，报告更进一步评估了多模态大模型更高级的认知能力。认知任务不仅需要理解视觉环境中的多模态概念，还需要进行深入的推理、解决问题和决策。报告中分别测试了模型的富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力、智力游戏能力。具体包括以下细分任务：

11. 表格和图表推理

报告评测了模型对流程图和图表分析的能力，Gemini Pro 可以用简短的句子正确地概括流程图的高级思想，GPT-4V 倾向于对图表中的逻辑流程进行更详细的描述，但偶尔会出现一些错误，SPHNIX 由于缺乏相关的预训练数据未能提取含义。在图 42 右侧样例中，Gemini Pro 和 GPT-4V 都可以理解手绘视觉提示，表明了它们对视觉输入的泛化能力。

12. 代码生成

将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能，分别测试了模型识别公式生成 LaTex 代码和识别网页生成 HTML 代码的能力。Gemini Pro 和 GPT-4V 在公式识别上表现出更好的结果，但仍然会错误识别一些小字符或符号。三个模型的识别网页生成相应 HTML 代码的能力仍然存在很大的改进空间。

13. 抽象视觉刺激

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。GPT-4V 展示了最好的抽象性能，提供了对象如何由形状组成的详细描述。Gemini Pro 能识别一些简单的抽象模式。

14. 韦氏成人智力量表

15. 瑞文推理测验

16. 数学问题

与常规视觉问答不同，数学问题的解决既涉及视觉输入的 OCR 能力，又涉及后续推理步骤中的定量处理准确性。

17. 物理问题

Gemini Pro 和 GPT-4V 表现出了良好的物理问题推理能力，并很好地利用了预先训练的专业知识作为参考。然而，它们的性能可能受到数学计算和物理方程的准确性的限制。由于物理问题的训练数据匮乏，SPHNIX 缺乏解决此类科学问题的能力。

18. 表情分析

模型在表情分析中都表现出良好的性能。其中，GPT-4V 提供了更加辩证的思维和严谨的分析，Gemini Pro 则可以直接以简洁的信息给出准确的答案。图 64 中，GPT-4V 和 SPHNIX 都捕获图像中截断的文本内容，并将这些信息合并到推理中，展现了他们的综合视觉理解能力。

19. 图像情感分析

模型都可以很好地描绘视图，并提供其中可能的情感。GPT-4V 观察是中立的，强调情绪是主观的，同时给出了更全面的分析。Gemini Pro 倾向于直接输出情感偏好。

20. 情感调节输出

与图像情感分析不同，情感调节输出使多模态大模型能够描述以预定义情感为条件的视觉上下文。虽然 Gemini Pro 和 GPT-4V 能够正确地将相应的情感注入到生成的文本中，但它们都遇到了幻觉问题。

21. 数独游戏

如果仅以图像作为输入，尽管 Gemini Pro 尝试在输出矩阵内提供答案，但无法正确识别空白位置，而 GPT-4V 和 SPHNIX 则无法进行第一步光学字符识别。此外，给定相应的文本输入，Gemini Pro 和 GPT-4V 都可以给出正确的答案。

22. 填字游戏

23. 围棋游戏

围棋游戏涉及复杂的战略思维和基于规则的决策，被视为通用人工智能的试金石。模型可以掌握一些初始技能，并预测棋盘上合法位置的下一步棋。

挑战性视觉任务

报告还评估了多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能，这些任务需要模型具有深厚的视觉感知和理解能力，评估他们在这些视觉任务的表现将有助于深入了解模型在多领域应用的可行性。报告中分别测试了模型在图像视觉任务和时序视觉任务中的性能。具体包括以下细分任务：

24. 目标检测

25. 指称表达式理解

Gemini Pro 和 GPT-4V 都能够识别指称对象的大致位置，但它们很难提供精确的坐标和框大小。而 SPHNIX 展示了提供引用对象的准确位置和大小的能力。

26. 短语定位

Gemini Pro 和 GPT-4V 可以正确提取表达式中的短语，却无法正确定位物体。

27. 人脸检测与识别

人脸检测和识别是计算机视觉中的一项重要任务。Gemini Pro 可以准确识别图像中所有面部的排列，并准确识别每个面部的相应名称。而 GPT-4V 因为隐私安全回避请求。SPHNIX 提供了几乎正确的边界框，但无法识别这些面孔。

28. 目标跟踪

虽然 Gemini Pro 和 GPT-4V 都能够描绘出要跟踪的目标的细节，但它们随后两帧图像中提供了错误的边界框。

29. 视频动作识别

从视频片段中抽取多个代表性帧输入到模型中，Gemini Pro 和 GPT-4V 都展示了识别图像中的动作并提供详细描述的能力，SPHNIX 缺乏详细的描述。

30. 视觉故事生成

任务要求模型完全理解图像中的信息，并在生成的故事中对其进行逻辑组织。Gemini Pro 和 SPHNIX 提供了连贯的故事，但却和没有十分贴近漫画剧情。GPT-4V 为每个插图提供了精确的描述，却未能根据任务要求将它们编织成一个有凝聚力的故事。

专家能力

专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力。除了上述的感知和认知任务外，多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义。具体包括以下细分任务：

31. 自动驾驶

自动驾驶是结合了先进计算、机器人技术和人工智能。评估模型在该领域的性能可以测试其处理交通感知数据、做出实时决策以及与动态环境交互的能力。模型可以注意到复杂场景下的细粒度特征，并根据场景环境作出合理规划。

32. 缺陷检测

缺陷检测需要高精度和对细节的关注。对于缺陷明显的图像，模型都可以提供正确答案，其中 GPT-4V 输出更详细的原因和描述。对于图 92 中的螺纹损坏的样例，Gemini Pro 给出了过于笼统的答案，SPHNIX 错误地描述了外观，而 GPT-4V 给出了标准答案。

33. 医疗诊断

医疗诊断的准确性和可靠性至关重要，该领域测试模型解释复杂医学数据的能力，以及帮助识别病情和建议治疗的能力。对于此类特定领域的视觉输入，通过一般图像预训练的多模态大模型不能始终如一地产生令人满意的结果。此外，还需要更具体的提示技巧，防止他们拒绝医疗相关问题，例如“报告内容仅用于大规模模型能力评估”。

34. 经济分析

经济分析涉及对复杂的金融数据和市场趋势的解释。报告展示了两个用于回答问题的股价走势图。Gemini Pro 擅长专家级金融知识，能够给出正确答案。GPT-4V 由于安全风险而没有给出明确答案。SPHNIX 由于缺乏相关训练数据无法理解此类问题。

35. 监控安防

监控安防需要实时处理和解释特定领域的视觉数据。模型都可以发现图像中潜在的安全隐患，但也存在一定的幻觉问题，错误识别了一些细节。这表明多模态大模型的监视能力仍然受到细粒度视觉感知的限制。

36. 遥感影像分析

Gemini Pro 可以识别地推断遥感图像是拍摄于日本，而 GPT-4V 可以全面地描绘出每一个细节，比如水体、道路、植被、居住格局、地形等等。

37. 机器人运动规划

机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标。Gemini Pro 和 GPT-4V 都可以提供有条理且详细的步骤，并且 GPT-4V 似乎比 Gemini Pro 给出了更合理的决定，例如电池的安装顺序，但 SPHNIX 无法完成手机的组装，说明其泛化能力有限。

结论

Gemini vs GPT-4V

鉴于其卓越的多模态推理能力，Gemini 确实是 GPT-4V 的有力挑战者。在大多数情况下，与 GPT-4V 相比，Gemini 的回答准确性具有竞争力，并展示了不同的回答风格和偏好。GPT-4V 倾向于生成对感知任务更详细的描述，并为认知任务提供深入的分析和逐步的中间推理，而 Gemini 更喜欢对答案提供直接而简洁的回应，这有助于用户快速找到相关信息。

除此以外，两个模型也存在一定的共性问题，比如空间感知能力不强，复杂 OCR 和抽象视觉理解不理想，推理过程可能存在不自洽结果，对提示设计的鲁棒性不足。可以看到，Gemini 和 GPT-4V 在很多情况下仍然陷入困境，显示出通向通用多模态大模型的漫长道路。

Gemini vs SPHINIX

尽管 SPHNIX 在某些情况下与 GPT-4V 和 Gemini 表现相当，但它无法生成与它们一样一致的高质量答案。这表明开源模型与黑盒系统仍然存在一些不可忽视的差距。导致差距的原因主要是训练数据缺乏多样性和底层模型的固有推理上限。

Gemini 和 GPT-4V 都是这个时代多模态大模型的先驱，展示了通用人工智能的火花。多模态大模型的未来发展可以集中在三个方面：视觉表示编码（细粒度外观、空间关系感知）、多模态对齐（减轻幻觉、OCR 准确性）以及模型推理能力（定量处理、逻辑一致性）。

关于 Gemini Pro 与 GPT-4V、SPHNIX 的更多评估比较，请查看原论文。

更多内容，点击下方关注：

继续阅读

阅读原文

关键词

多模态

能力

性能

模态

问题