中国基金报记者 文夕
AI巨头们在一天内先后放出“深水炸弹”,再次吸引了全球目光。
Open AI在2月16日发布了首个文生视频模型Sora,可直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,效果震撼。
业内普遍认为,AI多模态能力飞跃式发展,将会令智能算力资源更为稀缺。360创始人周鸿祎在表达对Sora看法时就提到,Open Al训练这个模型应该会阅读大量视频。
在业内看来,多模态的训练及推理将进一步提升对算力基础设施的需求。
值得注意的是,谷歌也在同日发布其大模型矩阵的力作Gemini 1.5。经过扩展后,这一多模态大模型可一次处理大量的信息——包括长达1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。
Sora三大亮点突出
2月16日,Open AI发布首个文生视频模型Sora。从目前Open AI展示的信息来看,Sora三大亮点突出,实现AIGC领域的里程碑式进展。    
首先是Sora可以生成60秒长视频,可以保持视频主体与背景的高度流畅性与稳定性;其次是单视频多角度镜头,Sora在一个视频内实现多角度镜头,分镜切换符合逻辑且十分流畅;再是理解真实世界的能力,Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀,极大地提升了真实感。
目前,Sora尚未对公众全面开放,仅邀请部分测试者进行体验。
随后,Open AI解释了Sora的工作原理:Sora使用了Transformer架构,是一个扩散模型,有极强的扩展性。
OpenAI称,Sora从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。
而视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。  
据悉,Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好地遵循文本指令。
周鸿祎火速发声
犹如Open AI在2022年底将ChatGPT-3.5公之于众一般,Sora在发布当日也立刻引起全球关注。
360创始人周鸿祎火速发布微博,提到自己对Sora的看法。周鸿祎对Sora给予了极高的评价。他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。    
在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。
“很多人担心Sora对影视工业的打击,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。而一个视频或者电影是由无数个60秒组成的。” 周鸿祎直言,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”
谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。“但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。” 
他表示,这次Open AI利用大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力。“这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

“马斯克说人类愿赌服输”

值得注意的是,就在Sora发布后数小时,特斯拉CEO马斯克就在X平台上接连回复多条帖子“输出”观点。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称,“gg Pixar(皮克斯动画制作公司)”(编注:gg为Good Games缩写,代指“打得好,我认输” ),随后马斯克回复,“gg humans(人类)”。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。
谷歌Gemini 1.5同日发布
实际上,在发布Sora之前,Open AI的CEO奥特曼便展望了未来两年AI发展。在他看来,人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升。    
奥特曼认为,至少在未来5到10年内,AI大模型技术将处于一个非常陡峭的成长曲线上;同时,其透露Open AI新一代模型将是一个多模态大模型,支撑语音、图像、代码和视频,并在个性化和定制化方面实现重大更新,具备更强的推理能力和更高的准确性;此外,他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。
值得注意的是,另一巨头谷歌的举动也侧面印证了奥特曼的猜想。就在Sora发布的同日,谷歌也发布其大模型矩阵的最新力作——Gemini 1.5,距离发布上一个版本Gemini 1.0的时间仅2个月。
作为新版本最大的亮点,Gemini 1.5版本中首个登场的多模态通用模型Gemini 1.5 Pro,把稳定处理上下文的上限扩大至100万Tokens。横向对比,两个月前发布的Gemini 1.0 Pro上下文理解限制为3.2万Tokens,老对手Open AI的GPT-4 Turbo也只支持12.8万Tokens。    
这意味着Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库,其多模态能力可见一斑。
算力需求将大增
Open AI的Sora和谷歌Gemini 1.5 Pro这类真正具有多模态能力的大模型横空面世,首先会对基础算力提出更高需求。
周鸿祎此次便提到,Open Al训练Sora模型应该会阅读大量视频。“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图。”周鸿祎表示。
国泰君安也认为,Sora模型将会推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
有机构此前测算,图像训练数据大幅提升训练Token量,例如将1张224*224大小的图片分割成16*16大小的2D小块,即单一图片相当于(224*224)/(16*16)=196个Tokens。图片训练素材的加入,拉动训练Token量的大幅增长,进而大幅提升AI训练算力需求。    
而视频的训练数据将大幅提升训练Token量。同图像训练素材相比,视频训练素材增加了时间维度,训练过程更加复杂,产生的训练Token数量更多,对算力需求更大。
在这一点上,北美四大云厂商资本开支提升便可窥豹一斑。近期,北美四大云厂商陆续发布2023年四季度业绩情况。数据显示,Meta、Microsoft、Google和Amazon在2023年四季度的资本支出合计为432亿美元,同比增长9.46%,全年首次增速转正。
以Meta为例,其预计2024年全年的资本支出将在300亿至370亿美元之间,相较于2023年三季度预测上限额外增加了20亿美元。该公司解释,这一增长主要得益于服务器需求的增长,其中包括人工智能和非人工智能领域的硬件,以及数据中心的建设。
华为在《智能世界2030》报告中预测,到2030年,人类将进入YB数据时代,通用算力将增长10倍、人工智能算力将增长500倍。需求加速而供给不足,智能算力已经成为当下稀缺资源。 
编辑:舰长
审核:许闻
继续阅读
阅读原文