CVPR 2023教程 | 多模态智能体—

题目：Multimodal Agents: Chaining Multimodal Experts with LLMs
来源：CVPR2023 Tutorial Talk
演讲人
：Linjie Li

视频链接
：https://www.youtube.com/watch?v=Wb5ZkZUNYc4&list=PLB1k029in3UhWaAsXP1DGq8qEpWxW0QyS&index=6

内容整理
：王怡闻

在 Linjie Li 的演讲中，她回答了多模态智能体中的重要问题之一：如何用大模型将多模态智能体串联起来。

建模范式的迭代
新范式的产生
MM-ReAct 设计
MM-ReAct 的应用

多图像推理
视频分析

可扩展性

ChatGPT -> GPT-4
GPT + SAM -- 理解人类指令
加入更多工具

规划：通过生成代码来调用工具

自我评估（Self-Assessment）
指令调优（Instruct Tuning）

未来方向

工具生成
检索增强的多模式代理
多模态工具使用评估

建模范式的迭代

下图展示了建模范式的更新过程：

将模型在小规模的、质量较高的数据集上进行训练，这样的模型只能完成一些和数据集相关的特定任务。
在大规模的数据集上进行训练，在实际应用中用特定的、小规模的、质量较高的数据集进行微调。一个典型的例子是NLP领域的BERT模型。
用更大规模的数据集做预训练，在极少量的样例上做zero-shot或者in-context fewshot，如GPT3。
用大规模数据集做预训练，在小数据集上做instruct tuning，NLP领域如ChatGPT，视觉领域如LLaVa。

新范式的产生

因此，利用大型语言模型的优势，研究人员目前正在探索一种新的范式，从解决有限的预定义问题的独立模型，转向结合多个工具或专家模型，以解决复杂的开放性问题。只需要给这个系统一些示例，让它学习在不同的场景下该调用什么API。如下图所示：用户直接与LLM进行交互，具体的实施方案由LLM自己设计，最终由LLM返回结果给用户。

这种范式在NLP领域已有所应用，将一些特定的工具（如搜索引擎等）应用到更加复杂的任务上。

受到NLP领域的启发过去几个月间，多模态智能体领域的进展十分迅速，并且涉及到了多个领域，如下图。后面将以MM-ReAct作为例子展示多模态智能体是如何工作的。

MM-ReAct 设计

MM-ReAct的完整的工作流程如下: 我们将一个图片发送给ChatGPT，ChatGPT就会调用外部接口去完成这个任务。

首先，ChatGPT确认数据类型是图像，调用外部的模型，如图像描述、密集描述、物体分类、人脸检测等等，获得图像中物体的类别和位置。
分析完图像后，ChatGPT发现图中出现了两个人脸，为了获取这两个人的身份信息，ChatGPT调用名人识别模型，确认左边的运动员是科比，右边是皮尔斯。这时，完成了基本的分析工作，ChatGPT回答用户：“这张图里有两个运动员，左边的运动员是科比，右边是皮尔斯。”
用户提问：“图像中左边的运动员在职业生涯拿过几个总冠军。”ChatGPT判断，这个问题需要借助搜索引擎，所以调用了bing search，最终将答案反馈给用户。