VAR 会是 Scaling Law 在视觉生成的新起点吗？

机器之心PRO · 会员通讯 Week 16

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. VAR 会是 Scaling Law 在视觉生成的新起点吗？

基于扩散的Sora没有Scaling Law吗？自回归比扩散模型更能Scale Up？VAR如何验证Scaling Law？下个视觉生成范式是VAR吗？...

2. Gen AI 应用需求急剧降速？3月访问量暴跌超 90%

被用户「证伪」的有哪些应用？「急剧降速」的 AI 应用都有哪些特点？在 AI 应用「高度同质化」的背景下，有哪些仍在持续涨幅的应用值得关注？顶级 VC 们看好哪类应用？...

3.《2024 年人工智能指数报告》报告都说了什么？

2024 AI Index有什么变化？AI在2023年有哪些进展？全球各国对AI的态度如何？政府对AI治理态度如何？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 8 项，国外方面 11 项。

本期通讯总计 23461 字，可免费试读至 14 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①VAR 会是 Scaling Law 在视觉生成的新起点吗？

日期：4 月 19 日

事件：2024 年初，OpenAI 在 Sora 的技术报告中称 Diffusion Transformer 具备 scale effective 的特征，引起了社区对 Scailing Law 的又一次热议。北大和字节团队近期提出的 VAR 则使 GPT 风格的自回归模型在图像生成首次超越扩散模型，并观察到与大语言模型相似的 Scaling Laws。

基于扩散模型的 Sora 没能解锁视觉领域的 Scaling Law 吗？

1、Scaling Law 的意义在于允许研究者预测模型性能随参数、数据和计算资源变化的趋势，这对于在有限预算下做出关键设计选择，如确定模型和数据的理想规模，避免昂贵的试错过程，具有重要意义。

2、扩散模型是当前最流行的生成式技术之一。虽然具备 Scaling Law 和零试泛化能力的 GPT、LLaMa 系列等自回归模型在 NLP 领域进展显著，但在视觉领域的表现仍落后于 Dall-E3、Stable Diffusion3 等基于扩散方法的模型。

3、Sora 是当前最为热门的视觉生成模型，有许多分析称 Sora 是潜在扩散模型（LDMs）和 DiT 的结合，但后续有工作质疑了这两个模型和 Scaling Law 并非十分契合。[2] [3] [4]

4、谷歌团队在 2024 年 4 月的论文中证明了 scaling law 在 LDM 中并不适用。[5]

① 该工作发现，对于潜在扩散模型（Latent Diffusion Models， LDMs），在计算资源较少时，如果增加 10 倍的计算量，应该让数据集大小增加为 10 倍，而不增加模型参数量。

5、被 Sora 带火的 DiT 论文虽然验证了该模型一定程度上符合 Scaling Law，但后续 VAR 论文中指出了 DiT 在 Scale Up 时存在局限，无法触及 FID 下限。

① DiT 论文中，研究者使用 Transformer 代替原始扩散模型中的 U-Net，获得了 SoTA 的图像生成效果，并证明随着整个计算的 FLOPs 的增多（即模型变大或 patch 更精细），FID 会越来越小。[6]

② 北大和字节的研究者在 VAR 论文中指出，DiT 存在 Scaling 局限，在增长至 3B、7B 后体现出饱和现象，无法靠近 FID 下限 [1]

表：扩散模型与其他图像生成技术的特征对比 [7]

扩散不行，基于自回归的 VAR 能证明视觉领域也有 Scaling Law 吗？[1]

1、北大和字节跳动的研究者 4 月 3 日发布的论文中提出 VAR 视觉自回归模型，其核心是模仿人类视觉，重新定义图像自回归顺序，先概览全局再深入细节，这种由粗到细的逻辑顺序更自然且符合人类直觉。

2、在实验中，VAR 架构实现了让 GPT 风格的自回归模型在图像生成首次超越扩散模型。

① 研究者在 Conditional ImageNet 256x256 和 512x512 上实验对比了 VAR 和其他生成式模型。

② VAR 最高实现了 FID=1.80 分值，逼近理论上的 FID 下限 1.78（ImageNet validation set），显著优于 DiT（FID=2.10）

③ VAR 只需不到 0.3 秒即可生成一张 256x256 图像，速度是 DiT 的 45 倍；在 512x512 的生成速度则是 DiT 的 81 倍。

3、研究者还通过实验观察到 VAR 展现出与 LLM 几乎完全一致的 Power-Law Scaling Law。

① 研究者训练了 12 种大小的模型，参数量覆盖 1800 - 20 亿，总计算量跨 6 个数量级，最大总 token 数达到 3050 亿。

② 研究者观察发现测试集损失于参数规模间展现了平滑的的幂律（Power-Law）关系，并拟合良好。

③ 通过测试对比，DiT 大模型在增长至 3B、7B 后体现出饱和现象，无法靠近 FID 下限；而 VAR 经过 scale up 到 20 亿参数，性能不断提升，最终触及 FID 下限。

图：VAR Transformer 伴随模型尺寸（N）的 Scaling Law，幂律拟合以虚线表示，方程可见图例。其中，接近零的小指数 α 表明，当增大 VAR Transformer 尺寸时，测试损失 L 和标记误差率 Err 都会平稳下降。坐标轴均为对数刻度。皮尔逊相关系数接近 -0.998，表明 log（N）与 log（L）或 log（N）与 log（Err）之间存在很强的线性关系。[1]

VAR 会是视觉生成领域的下一个主要范式吗？

1、VAR 模型采用自回归方法，其设计灵感来源于人类感知和创作图像的方式，即从全局到局部，从粗略到精细。

① 这种「以人为本」的「下一尺度预测」的生成策略，这允许模型更有效地捕捉图像的视觉分布。

② 传统的图像自回归模型采用光栅扫描顺序（raster-scan order）来逐个预测图像 token，虽适合计算机处理，但不符合人类直觉。

2、VAR 的训练过程含两个阶段，第一阶段训练一个多尺度量化自动编码器（VQVAE），将图像转化为离散的 token map，并通过连续化和解码重建图像。第二阶段则训练出类似 GPT-2 的自回归 Transformer，并使用 AdaLN 技术。

3、训练过程中，VAR 模型通过多尺度 VQVAE 将图像编码为多个不同分辨率的 token maps，然后自回归地生成。这种方法保持了图像的空间局部性，并且可以并行生成同一尺度内的标记。

4、传统的 AR 模型需要对每个像素进行自回归预测，其计算复杂性较高，通常是 O（n^2）的迭代次数和 O（n^6）的总计算量，其中 n 是图像的分辨率。VAR 模型通过多尺度预测，可将计算复杂性降低到 O（n^4）。

5、就 VAR 的未来机会，北大和字节的研究者 VAR 模型与 LLMs 在本质上相似，因此可以轻松地与它们集成，以通过编码器-解码器或上下文方式执行文本到图像的生成。这会是团队当前优先探索的研究方向之一。

① 虽然 VAR 没有实现视频生成，但研究者认为通过将多尺度视频特征视为 3D 金字塔，可以自然地扩展 VAR 模型以生成视频。VAR 模型在处理长期依赖性方面具有潜在优势，这使得它在视频生成领域具有竞争力。

6、VAR 的表现和幂律 scaling effectiveness 引起了社区的热议。在感慨的同时，也有网友指出 VAR 可能存在的局限。

继续阅读

阅读原文

关键词

方法

阶段

人类

参数

计算量