打破“成本质量效率”不可能三角，3D生成式AI加速解决VR内容困境

文/VR陀螺 WiZ

继文本、图像之后，生成式 AI 又打算在 3D 建模领域创造新的奇迹。

早些时候，由澳大利亚国立大学、牛津大学和北京智源人工智能研究院的科研人员开发的 3D-GPT 系统着实是火了一把，虽然这并非是成功问世的第一个“文生 3D”人工智能系统，但顶着“GPT”的名号还是让其备受瞩目，以至于项目还未正式公布代码就已在 Github 上揽获 605 颗星。

图源：github

无门槛生成 3D 世界的时代，这次难道真的要来了？

操着建模的心，干着写代码的事

在研究团队公布的论文中，3D-GPT 被描述为“可以简单地根据用户提供的文本描述生成各种各样的 3D 模型和场景”。

简单来说，3D-GPT 主要完成的是从输入文字中提取信息并生成建模指令这一关键一步，而后续的建模过程则主要交给 Blender 等建模软件。

与文生图所依赖的独立模型不同，3D-GPT 依靠的仍然是大型语言模型（LLM）的多模态和推理能力，将 3D 建模任务分解为三个子任务：任务调度、概念化、建模，并分别交由框架的不同部分进行处理。

图源：3D-GPT

在开始进行第一步前，研究人员还需要为 LLM 做一些事前准备。原因在于 3D-GPT 区别于传统的生成式 AI 概念，由于寻找专门的 3D 预训练数据过于困难，3D-GPT 选择让 LLM 直接创建 3D 内容。

而这也为实现精确建模带来了挑战，因此，研究人员选择利用一个基于 Python-Blender，并配置了丰富生成函数库的过程生成器 Infinigen，通过为函数库中的每一个函数打上包括函数说明文档、可读代码、参数信息、说明示例等关键提示，使 LLM 能够利用 Infinigen 提供的具体函数，沿着任务调度代理-概念化代理-建模代理三步骤按部就班地进行基于语言指令的精确 3D 生成。

其中任务调度代理是识别输入文本信息的关键一步，利用用户指令查询内置函数文档，并随后选择匹配的函数进行执行。

而概念化代理则负责对文本描述进行推理，补充缺失的细节。当输入文本中缺少某些建模的关键信息时，概念化代理往往会选择一切从简，直接套用参数文档中的默认值，或者复制提示示例中的参数，这在一定程度上会降低生成结果的多样性并复杂化参数推断过程，使得 3D-GPT 有时会显得不够智能。

最后，在参数信息准备就绪后，建模代理提供了带有推断参数的 Python 函数调用，通过 API 控制 3D 建模软件 Blender 来进行物体变形、材质调整、网格编辑、物理模拟等多种操作，并最终生成 3D 结果。

精细准确的花朵建模（图源：3D-GPT）

通过一系列案例，论文最终得出的结论是，LLMs 在推理、规划和程序 3D 建模工具使用方面具有出色潜力。LLM 加持下的 3D-GPT 不仅支持连续的指令输入，可以在已经生成的内容上进行持续编辑和修改，同时这些修改行为还可以具体到某一单独元素，这使得 3D-GPT 不仅能完成对单个模型的细节丰富，在大场景生成上也表现不俗。

3D-GPT 一键生成大场景（图源：3D-GPT）

但同时，论文最后也点出了 3D-GPT 的不足之处：首先是框架缺乏精确曲线控制和复杂阴影设计的高级能力，导致如树枝建模、树叶纹理颜色混合等工作仍然存在不足；其次是框架的有效性过于依赖程序生成算法的质量和可用性，而算法的局限会导致 3D-GPT 在毛发建模上受到限制；最后是框架在处理多模态指令时的挑战，包括音频和图像输入在内的信息在处理过程中可能出现丢失。

总的来看，3D-GPT 仍处在概念真正落地前的修补完善阶段，虽然离重塑 3D 建模格局还存在不小的距离，但目前仅有的效果就已十分惊艳。

3D 建模

AIGC 的下一个兵家必争之地

3D-GPT 并非是“文生 3D”技术的独苗，事实上，自人工智能下沉内容制作市场时起，对于生成式 AI 构建虚拟世界的尝试就从未停止过。

谷歌、OpenAI、英伟达等人工智能、互联网科技企业更早出发，跑得也更远。

谷歌在 2022 年 9 月公布大模型“DreamFusion”，成为最早一批实现“文生 3D 模型”的生成式 AI 模型。DreamFusion 由数十亿图像-文本对的扩散模型驱动，只需 2D 数据训练就可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型。

图源：DreamFusion

从模型效果上看，DreamFusion 生成的 3D 素材已经十分逼真，在细节上吊打几个初版的扎克伯格 Horizon Worlds 小人形象，但从建模效率来看，动辄以小时为单位的建模速度可以与人类建模师打得有来有回，在 AI 混战中却是处于下风。毕竟隔壁 OpenAI 已经做到了单个 GPU 秒出 3D 图像。

去年 12 月，OpenAI 发布了 Point-E 模型，该模型可使用文本到图像的扩散模型生成一个单一的合成视图，再使用扩散模型生成三维点云。之后仅仅过了 6 个月，OpenAI 又推出了升级版的 Shap-E 模型，该模型可以直接生成隐函数的参数来渲染纹理网格和神经辐射场，收敛速度更快。

Point-E 生成三维点云（图源：OpenAI）

两个 AI 模型都以以超快速建模为特色，相比竞品模型 DreamFusion 提速了几百倍。建模效率是真的高，但代价却是建模质量的牺牲。从最终生成的 3D 模型质量来看，如果说 DreamFusion 已经完全可以胜任 VR 虚拟场景中的 3D 元素建模工作的话，那 Point-E 和 Shap-E 目前大概只能用于一些质量要求不高但数量需求大的场合，被戏称为“还处在找不到工作的建模师水平”。

Point-E 将点云转换为网格（图源：OpenAI）

或许是知道在 3D 领域需要外援相助，此后 OpenAI 又于 2023 年 8 月收购了 Global Illumination 团队，后者是一家利用 AI 构建创新工具、基础设施和数字体验的公司，曾开发出一款类似于《我的世界》的开源沙盒多人在线角色扮演游“Biomes”。这也被部分网友解读为是 OpenAI 计划持续深入 3D 领域的一个信号，Point-E 和 Shap-E 的打怪升级之路还在继续。

头部企业打得火热，后面跟着的则是一批研发实力同样不俗的竞争者。后起之秀 Stability AI、Kaedim、Auctoria、Luma 以及国内的光影焕像等初创企业则有冲击市场之势，都在该领域取得了实质进展。

人工智能初创企业 Stability AI 在 2022 年推出的文生图大模型 Stable Diffusion 原本致力于 2D 图像生成，但近期也悄悄进行了迭代升级，向着 3D 内容创建的方向进发。

其新增的 AI 工具“Stable 3D”可以通过选择一张图像或插图，或者编写一段文本 prompt，在几分钟内生成一个草稿质量的 3D 模型。而除了上传现有图像或插图外，用户还可以用自然语言描述他们想要创建的 3D 样式，完成文本信息到 3D 模型的转换。

Stable 3D 是在 Stable Diffusion 和世界上最大的开源 3D 数据集之一的 Objaverse-XL 数据集的基础上构建的，生成的 3D 模型可以在 Blender、Maya 等建模软件和虚拟引擎、Unity 等游戏引擎中进一步编辑使用。

图源：Stability AI

根据 Stability AI 的说法，Stable 3D 的加入使得设计工作者将能以低廉的成本完成每天创建数千个 3D 对象的任务。

可以看到，精准高效是生成式 AI 的永恒追求，动辄数天乃至数周的的 3D 建模工作时长如今已被极限压缩至分秒级别，以 VR/AR 为代表的 3D 内容生产又找到了降本增效的捷径。

但与所有饱受诟病的 AI 工具类似，Stable 3D 们同样受到了来自版权保护的灵魂拷问。

今年早些时候，Stability AI 刚刚遭受一起侵权指控，几位艺术家联合起诉 Stability AI 在“没有通知或补偿的情况下使用他们数百万张图像作品用于训练 Stable Diffusion”。

在尚有前科的情况下，Stability 并未透露使用了哪些数据来训练 Stable 3D，该工具的使用者最终可能会在大数据模型的隐瞒下将未授权的数据纳入他们的项目中，这也为其最终的商用埋下了不小的隐患。

只不过在可能导致的法律问题之外，AIGC 的加入加速了基于虚拟场景的 VR 内容生产效率，对于深陷内容不足困境的 VR 行业来说无疑是期盼已久的救命稻草。

AIGC+VR

拖后腿的虚拟内容生产模式是时候加速了

2022 年来，全球 VR/AR 市场呈现出 AR 进，VR 退的局面。据陀螺研究院统计，2022 年全球 VR 头显出货量 1014 万台，较 2021 年下滑了 8.65%。2023 年二季度全球 VR 销量仅为 144 万台，同比下降 37%，环比下降 21%。

面对 VR 出货增长疲软的现象，许多业内人士将原因之一归结到为 VR 应用场景和内容跟不上硬件的脚步。

对比 VR 和 AR 技术可以发现，从场景上看，AR 更强调现实场景，通过 OST 技术下的虚拟信息叠加显示提供拓展体验，最终形态更为轻便。而 VR 则要营造沉浸式的场景氛围，需要大量的硬件软件支持。

图源：PICO

因此，AR 在实际应用中更具有便捷性，在工业、医疗、教育等领域的应用广泛，市场需求巨大，大众接受程度高。而回看 VR，虽然现有的 VR 产品在硬件层面总体已经能够满足基本场景使用需求，但总是慢一步的内容生态建设却还未创造出能让 VR 头显融入日常的应用，VR 目前并没有能够改变生产生活、日常服务等的相关内容。

唯一可堪一战的应用场景目前来看还只有 VR 游戏。在 VR 行业直接面向消费者的虚拟现实内容中，游戏凭借着其强交互性优势天然适配 VR 的内容生态。根据游戏市场调研机构 Newzoo 发布的 VR 游戏市场报告来看，2022 年全球 VR 游戏收入预计超过 18 亿美元，并将在 2024 年实现规模比 2021 年翻倍。

其中，VR 游戏在头显应用生态中占据着不可撼动的地位，约 72%的受调查者将游戏作为他们使用 VR 最主要的三个用途之一，39%的用户表示他们购买 VR 硬件主要是体验 VR 游戏。因此在元宇宙带来的 VR 场景中，VR 游戏理所当然地充当着开拓内容消费市场的先行者。

只是这唯一的先行者也存在着产能严重不足的问题。以国内市场为例，截至 2023 年 9 月 23 日，国内 VR 内容头部 PICO Store 的内容数量已增长至 536 款，其中约 70%为游戏，数量在 370 款左右，这里面以海外引入作品居多，国内作品占比较低。

图源：PICO

国内 VR 内容生态不完善，VR 开发者、VR 内容数量相对较少，大部分内容靠海外引进，头部企业尚未完全发力，VR 内容在创作和推广方面面临着不小的挑战。

而生成式 AI 的出现有望打破这一困境。

目前市面上主流 VR 内容的生产方式主要有 3D 建模式和全景采集式两种。其中 3D 建模式内容沉浸感强但制作成本高，各个领域的 3D 内容需要大量人工进行制作，而且对制作人员的门槛要求相对较高，产能较低，这是制约相关行业发展的一大瓶颈。

AI+VR 的组合则可以在一定程度上实现 3D 内容制作的自动化，替代部分重复劳动，有助于进一步丰富 VR 虚拟内容并提升研发效率。

从过去一年来的行业动向来看，AIGC 在文本、图片、音乐等内容生成领域已经体现出了强大的生产能力，与 AI 生成文字、图像和视频相比，AI 生成 3D 内容当前还处于初级阶段。但随着 AI 模型的发展与算力的提升，AI 有望带来 3D 内容生成领域的变革。

变革的第一站同样很有可能出现在游戏领域。从虚拟内容类型来看，目前主要的 VR/AR 内容有三种：一是基于现实场景的全景照片/视频，二是基于虚拟场景的游戏/体验，三是基于混合场景的交互应用。由于生成式 AI 在虚拟场景、虚拟人物建模方面的优势，场景游戏/体验将成为文生 3D 能够预见最重要的应用方向。

不久前，腾讯 AI Lab 就在 2023 游戏开发者大会上发布了自研的 3D 游戏场景自动生成方案。该方案通过 AIGC 技术，在城市布局生成、建筑外观生成、室内映射生成等方向帮助开发者在极短的时间内打造出高拟真、多样化的虚拟城市场景，大幅提升游戏开发效率。

此外，如果将文生 3D 模型嵌入游戏 UGC 生态，那么 UGC 创作门槛将大大降低，玩家也可以在游戏中一句话生成自己的虚拟世界。而有了游戏领域的成功案例带头，VR 在教育、医疗、工业、旅游等领域的虚拟场景的构建和更迭速度也将能够更快完成。

图源：3D-GPT

总的来看，从 DreamFusion 再到 3D-GPT，以文生 3D 为代表的的生成式 AI 的诞生可以被视作 3D 场景制作加速、VR 内容迎来大爆发的又一个新拐点。当然，目前的文生 3D 技术还远远达不到商用的阶段，但就像 ChatGPT 一样，谁也想不到人工智能颠覆内容生产形式的一天来得这么快，同样的，文生 3D 技术实现规模化应用未必就不会发生在这一两年。

这对于 VR 行业来说算得上是个及时的消息，虚拟内容厂商们这次或许真的找到了能用更低成本撬动整个行业繁荣的新机会。

第一时间了解XR资讯

关注VR陀螺官网（vrtuoluo.cn）

VR陀螺的联系方式：

商务合作 | 投稿：

六六（微信号 13138755620）

寻求免费曝光：

六六（微信号 13138755620）

投稿邮箱：[email protected]