LVM 是噱头还是通用视觉的新突破？

机器之心PRO · 会员通讯 Week 49

---- 本周为您解读 ④个值得细品的 AI & Robotics 业内要事 ----

1. LVM 是噱头还是通用视觉的新突破？

LVM 是什么？LVM的「AGI火花」是什么？LVM 与其他视觉模型有什么不同？LVM 离视觉的「GPT 时刻」更近了吗？在 LVM 之前，视觉基础模型都是如何发展的？...

2. AGI 的到来究竟还要几年？

马斯克为何说 AGI 到来还有 3 年？黄仁勋的 5 年预测从何而来？现在的大模型离他们说的 AGI 还有多远？LeCun 为何觉得 AI 会先变成猫狗？...

3. 奥特曼投资的 NPU 会是取代 GPU 的种子选手吗？

OpenAI 花 5100 万美元定的 NPU 真能取代 GPU 吗？Rain AI 又是何方神圣？NPU 与 TPU 孰强？XPU 版摩尔定律了解一下？...

4. 人形机器人技术进入稳定发展期，行业前景如何？

中国的人形机器人技术专利情况如何？人形机器人技术有哪些细分方向？发展情况如何？头部人形机器人产品及其公司的专利情况如何？人形机器人行业未来的技术发展走向？...

...本期完整版通讯含 4 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递，其中技术方面 13 项，国内方面 7 项，国外方面 11项...

本期通讯总计 26966 字，可免费试读至 6 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ① LVM 是噱头还是通用视觉的新突破？

日期：12 月 4 日

事件：UC 伯克利和约翰霍普金斯大学的研究者提出了大型视觉模型（LVM），无需任何自然语言输入或输出，引起了广泛的关注和讨论。

LVM 和 LLM 有什么关系？下一代的最强大模型一定是 LVM 吗？

在视觉任务中，传统的视觉-语言模型主要用于需要共同理解视觉和文本模式的任务。伴随大语言模型的突破，学术界和工业界均开始尝试采用「文本」来扩大视觉模型的规模。这种方法在训练时会给模型提供图片样例（如一个水果的照片），并附上文字描述（如：这是 XX 水果）。但在面对更加复杂的图片时，这种模型很容易忽略其中大量的信息。

1、LVM，全称 Large Vision Model（大型视觉模型），仅使用图像数据进行训练和推理，无需自然语言输入或输出。

2、现有的 LLM（大型语言模型）具备两种关键特性。即：在大数据环境下的扩展能力；通过提示（上下文学习）灵活地指定任务（即时学习）。

3、LVM 的研究目标在于仅从像素出发，探索视觉模型如何模仿上述 LLM 的两个关键特性。研究者为此指定了「数据」、「架构」、「损失函数」3 个核心组件。

① 数据方面：研究者定义了一种通用格式，称为「视觉句子」（visual sentence），用它来表征不同的注释（如包括语义分割、深度重建、关键点等），而不需要任何像素以外的元知识。

② 架构方面：研究者采用 30 亿参数的 Transformer 架构，在表示为 token 序列的视觉数据上进行训练，并使用学得的 tokenizer 将每个图像映射到 256 个矢量量化的 token 串。

③ 损失函数方面：研究者从自然语言社区汲取灵感，即掩码 token 建模已经「让位给了」序列自回归预测方法。一旦图像、视频、标注图像都可以表示为序列，则训练的模型可以在预测下一个 token 时最小化交叉熵损失。

4、在测试中，研究者称 LVM 显示出了通用人工智能（AGI）的「火花」，表现出了一些跨领域和跨模态的能力。

① 简单来说，LVM 通过视觉 Prompt 进行学习，成功理解并答对了类似公务员考试中的图形推理题？

图："AGI 的火花？"研究者用一个遮蔽的推理视觉句子提示 LVM（图中红框左侧），让它推断出智商测试中常见的非语言推理题的答案。研究者发现，该模型通常能正确推断并应用抽象的视觉模式。因此，研究者「谦逊」地向读者抛出了一个问题：LVM 是否也表现出了备受赞誉的 "AGI 火花"。

LVM 将视觉上下文学习能力推到了新的维度？[1] [4]

1、LVM 的可扩展性使其能够处理并学习从原始图像到语义分割和深度重建等标注数据集的各种视觉数据类型。

① 这种多样化的数据输入增强了模型对复杂视觉场景的理解，同时可扩展的 LVM 能更好地在各种任务中泛化，并更有效地适应新挑战，对于视觉输入高度变化的实际应用至关重要。

② 但目前预训练的纯视觉模型在扩展到诸如 LAION 真正大的数据集时，仍然存在困难。

2、知乎的年度新知答主谢凌曦评价 LVM 称：它将视觉 in-context learning 扩展到了序列上，相当于提升了一个维度，所以能够支持的 prompt 形式也更加丰富，能够完成更复杂的推理。往远处看，在视觉交互环境构建起来后，我们也需要一种能够「预测下一帧」的基础模型，届时这篇文章的技术很可能会发挥更大的作用。

LVM 与其他视觉模型有什么不同？[1]

1、LVM 仅使用图像数据进行训练和推理，不依赖于任何自然语言输入或输出。这使得 LVM 更接近于人类的视觉学习方式，并且具有更高的通用性和灵活性。

2、通过增加模型的参数量和扩大训练数据的规模，LVM 可以提高其性能和泛化能力。这种扩展性与大语言模型（如 GPT 系列）的方法相似。

3、LVM 采用了一种基于序列的建模方法，将图像序列编码为低维向量，并使用自回归模型来预测下一帧的向量。这种方法在视觉模型中较为少见。

LVM 离视觉的「GPT 时刻」更近了吗？[4]

LVM 因其仅采用图像数据训练而引起了大量讨论，许多网友对其所带来的贡献和影响发表了评论。下面是知乎的年度新知答主谢凌曦的看法。

1、目前，要想达成视觉的 GPT 时刻，现在的基础设施建设还远远不够。特别是，视觉需要一个充分复杂的交互环境和足够丰富的任务（包括收集各种 instruction），目前还未实现。

2、现有的数据规模还不足以将视觉模型建模好，数据是一大难点。训练大规模视觉和语言模型需要大量数据和计算资源。这些模型的计算要求限制了它们在许多实际应用中的可访问性和可扩展性。

① LVM 的的核心贡献之一，就是构建了一个统一视觉数据集 UVDv1。

3、LVM 与 LLM 同样存在幻觉问题，生成的输出是不真实或无意义的，通常基于假设场景。为控制幻觉，可以向对话型 LLM 提供明确的指令，要求其基于提供的上下文提供答案。

继续阅读

阅读原文

关键词

模型

数据集

序列

语言模型

研究者