视频生成技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是Diffusion Model(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的Video LDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。
本文来自“2024 AIGC视频生成:走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索”。Sora的发布,对Transformer + Diffusion Model(DiT)路线进行了成果瞩目的验证。
Sora模型将视频压缩到低维空间(latent space),并使用时空补丁(Spacetime latent patches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。
Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。
Sora是diffusion transformer,而transformer在各个领域都表现出显著的规模效应。
下载链接:
AI绘画爆火后,如何利用AIGC抓住下一个内容风口?
人工智能的下一站:文生3D技术
AI服务器催化HBM需求爆发,核心工艺变化带来供给端增量(2024)
1、人形机器人之一:海外国内代表企业纵览及核心零部件分析 
2、人形机器人之二:人工智能的终极载体,开启十年产业大周期 
3、人形机器人之三:更精确的感知,更高效的交互 
4、人形机器人之四:滚珠丝杠让运动更丝滑,国产化替代蓄势待发
下载链接:
AIGC产业图谱V2.0(2023年)
1、AI全域变革图景趋势洞察 
2、中国AI技术变革企业服务报告 
3、中国AI基础软件市场研究报告 
4、AI大模型应用研究报告 
5、中国AI人工智能行业概览 
6、中国AI工业质检行业产业链分析
谷歌再更新Gemini大模型,立足MOE架构性能更加卓越
Sora划时代:算力应用再加速
计算机行业研究:Sora开启创意领域iPhone时刻,关注全球文视频领域机会
Sora实现文生视频跨越式突破,AIGC持续正反馈
1、OpenAI推新工具Sora,一句话生成60秒短片 2、OpenAI Sora存缺陷易穿帮,暂未对公众开放使用
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

继续阅读
阅读原文