1026日晚,由DISCOVER实验室主办的第二十五期AIR青年科学家论坛如期举行。本期讲座有幸邀请到上海人工智能实验室青年科学家戴勃,为AIR的老师与同学们做了题为《结构先验对高质量内容生成的重要性》的精彩报告。
讲者介绍

戴勃,上海人工智能实验室青年科学家,内容生成与数字化研究团队负责人,曾任新加坡南洋理工大学研究助理教授。研究领域为生成式人工智能(AIGC),目前在人工智能顶级会议和期刊发表相关论文共计40余篇,近期代表工作书生天际LandMark,AnimateDiff。
报告内容

在本次分享中,戴博士为我们科普了评价AIGC质量的关键维度和关键点,以及他的三方面的工作:视频、宏观3D场景以及微观3D 场景的生成工作。
戴博士首先为我们科普了评价AIGC质量的关键维度。他指出,AIGC应用真正的发展,需要不断提升其四项关键性质,即:可扩展性——短时间生成多个高质量内容;保真度——生成内容的主观质量;可控性——对生成内容精准控制的能力;可得性——要低门槛地使用AIGC应用。对提升AIGC应用的四项关键性质,戴博士提出了要利用好AIGC内容和任务的组合性,分而治之,将任务进行合理的拆分和组合,提升每一项子任务,以达到提升四项关键性质的目的。
之后,戴博士带来是其三项重点工作的介绍。首先是在视频生成领域的工作,戴博士指出,开源的图像生成应用,特别是Stable Diffusion,不仅可以生成极高质量的图像内容,还拥有及其活跃的社区,已经形成了极其丰富的生态,开发出了很多种玩法。基于这一点,戴博士团队提出了利用图像加运动来生成视频的思想,将运动模块作为一个插件,插入到图像生成模型之后,让图像“动”起来。
并且由于社区在图像视频生成领域已经具有了很多种类的模型,该运动模块也可以接入ComfyUI,得到更多生成内容的可能性。
在宏观三维场景的生成工作方面,戴博士团队提出了基于渐进式模型结构和学习模式,通过逐渐增加模型的能力来处理新的信息和尺度,逐渐探索神经辐射场技术的边界。戴博士团队的工作从最开始的针对单个建筑体的重建工作,推广到整个区域,克服了同时兼顾整体和局部细节的质量的难点,到最后使用类似地图的平面信息和立体信息的方式来表达一个三维场景,并结合一个Vanilla NeRF的分支,真正实现了单个NeRF模型对百平方公里级的大型三维城市场景的高精度重建、实时渲染及光影变换。在完成这一系列的工作之后,戴博士团队进一步以学到的地图作为操作空间,实现了对生成内容跨场景的编辑。
此外,由于城市规模任务数据具有获取难度大,敏感度高,噪声大等特点,戴博士团队将目光转向虚拟空间当中,利用虚幻引擎内容的质量高、多样性好、可扩展性强的特点,打造出了基于虚幻引擎的合成数据集MatrixCity,可以在很大程度上解决城市规模的任务数据的问题。
在微观层面,戴博士指出,任何的三维的实体都可以用粒子组成的系统来表示。在粒子层次去学习整个系统的动态,也许可以更通用地预测场景的动态变化,不需要考虑太多的领域特性。粒子之间的动态主要由粒子的状态和粒子之间的作用所决定,当时在这一方面,前人的工作多基于图神经网络和Transformer模型来研究粒子的状态和互相之间的关系。戴博士团队在经过研究后发现,图神经网络和Transformer这两个模型在一定程度上等价,但两种模型在对粒子之间交互的建模方式上有区别。在经过论证之后,戴博士团队将两种方案结合到了一起,得到了较快的运算速度和较好的泛化能力。
在取得这项工作的成功之后,戴博士团队将其应用到了多层衣服的动态生成上,也取得了成功。在真实场景中,目标任务可能穿很多件衣服,具有不同的拓扑结构。戴博士团队将这些不同拓扑的衣物打散成粒子,并直接对这些粒子进行模拟,达到了对不同衣物、不同外部作用力同时进行模拟的效果,并且具有非常高的泛化性能。
演讲的最后,戴博士展示了使用前述视频生成技术制成的漫画人物来展示了其团队主页的二维码,并回答了同学们的问题。
文稿撰写 / 谢斯睿
排版编辑 / 王影飘
校对责编 / 黄   
AIR长期招聘人工智能领域优秀科研人员
点这里关注我们
关于AIR
清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的校级研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。
AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。
智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Life Science)是清华大学智能产业研究院的三个重点研发方向。

关于DISCOVER实验室

DISCOVER实验室是AIR科研方向的横向支撑实验室之一,旨在利用机器学习、计算机视觉、计算机图形学、机器人学、运筹学、高性能计算与人机交互等前沿技术,围绕车路协同(V2I)、用户直连制造(C2M)、实验室自动化等各应用场景,构建以感知、规划、控制与决策为核心的智能算法平台体系,结合涵盖设计、工艺、计算与人因的智能系统架构体系,研究人-机-边-云四位一体的人在环路多智能体协同系统,开展具有创新性的算法理论与系统架构研究,紧贴以制造业为主的国家重点行业需求,攻克以人为中心的场景理解、人在环路机器学习、仿真到现实迁移与柔性制造工艺等关键技术瓶颈,与产业界深入合作探索自动驾驶与柔性制造的范式转移路径并实现关键技术验证与落地,推动我国在智慧交通和智能制造领域的产业升级。

【内附完整论文】AIR近期亮点论文解读

AIR学术|上交大陈思衡:图网络学习-从社交网络到车路协同

继续阅读
阅读原文