今天是Olina陪你的第3207天
2037章
Olina
持续日更
努力的创业者
陪你一起在路上
2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。
AI想象中的龙年春节,红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。
竖屏超近景视角下,这只蜥蜴细节拉满:
Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。
比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。
对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。
例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,有的狼崽凭空出现或消失。
该模型还可能混淆提示词的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
如根据提示词“篮球穿过篮筐然后爆炸”生成的视频中,篮球撞到篮筐边缘竟然没有反弹而是直接穿过。
OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。
同时OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。
2023年,ChatGPT的发布引领全球进入AI热潮,光是中国公司就发布了超过130个大模型。起初,大家的目标都是朝着自研大模型进发——有钱的大厂研发基座模型,创业公司们则转向研发在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。
但事实证明,大模型真正的门槛在于高昂的成本——海量的算力、能提供定制服务的数据服务商和顶尖的人才团队。
以算力为例,目前市场绝大部分被用于训练大模型的算力芯片都来自于英伟达。根据财经报道,2023年,英伟达A100的售价涨了约1倍。单单部署1000台服务器的电力成本就高达月20万元。
大厂们的优势在于,既拥有雄厚的财力去大规模购买、部署GPU,也能及时通过工程优化,利用大模型去实现效率提升。
根据晚点LatePost报道,11月,基于阿里的“通义千问”,跨境业务AI Business团队正式对外公布自己的产品 “Aidge”,兼具翻译、营销、设计、本地化服务等一系列功能。统计数据显示,11月经过AI优化后的商品,获得的海外询盘量比之前增加了15%。
字节则在推出了云雀大模型后,相继研发出了豆包、扣子、话炉等产品。以话炉为例,用户可以在其中与AI智能体一道,通过故事聊天、创作,获得互动体验。
Sora使用 transformer 架构,将视频和图像表示为称为 Patch 的较小数据单元的集合,类似于 GPT 中的 token。重要的是,它和GPT一样符合AI 缩尺律(Scaling Law),也就是说随着训练计算量的增加,样本质量明显提高。
有行业人士表示,目前Sora 暂未对外开放使用,仅OpenAI CEO Sam Altman 在X 平台上与评论互动生成视频,认为算力的限制可能是目前 Sora 暂未开放使用的重要因素。
算力已经成为了各家最为关注的资源之一。2018 年,Altman 个人投资了一家AI 芯片初创公司Rain Neuromorphics,2019 年,OpenAI 花费5100 万美元购买Rain 的芯片;去年 11 月,Altman 为一家代号为“Tigris”的芯片企业寻求数十亿美元的资金。
软银集团创始人孙正义则正寻求筹措1000亿美元资金成立一家芯片企业,与旗下半导体设计公司ARM的业务形成互补。
不过Sora的惊艳并不意味着其他人就没有机会。视频生成赛道此前的明星公司是Runway和Pika,尽管有许多人认为Sora很容易对两者进行降维打击,但Pika创始人郭文景在回应钛媒体时称,“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”
各位技术大牛和内容行业从业者如何评价Sora?
马斯克评OpenAI视频模型:人类认赌服输,但AI增强的人类将创造出最好作品
OpenAI周四发布了首个视频生成模型Sora。马斯克的前女友格莱姆斯发布了一连串帖子,讨论这项新技术对电影以及更广泛的艺术创作的影响。
马斯克在其中一条帖子下回应称:“AI增强的人类将在未来几年里创造出最好的作品。”
值得注意的是,马斯克和格莱姆斯在过去大约半年时间里一直在就他们三个子女的抚养权问题对薄公堂。两人之间在X平台上这次罕见的互动引发了人们对他们目前关系状态的猜测。
稍早,一位X用户分享了Sora生成的一名女子在东京街头漫步的视频,并评论称:“OpenAI今天宣布了Sora,它使用混合扩散和变压器模型架构生成长达1分钟的视频。他们似乎又领先了其他所有人1-2年。”另一位X用户评论称:“gg皮克斯。”
马斯克回应称:“gg人类。”(注:gg是网络游戏用语“good games”的缩写,主要用于游戏结束后,输赢双方都可以用,但现在多由失败方发出,表示认赌服输、心服口服的意思。)在马斯克帖子的评论区里,还有用户附和道:“gg好莱坞”。
Jim Fan感叹:Sora是一个数据驱动的物理引擎
英伟达人工智能研究院Jim Fan表示“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”Jim Fan大神的言下之意是,我们不能忽略Sora背后,“世界模型”更进一步,AI已经可以读懂物理规律。
YouTube大V :动画师和3D艺术家的工作可能有危险了
YouTube大V Paddy Galloway感慨:“内容创作永远改变了。这不是夸张。我在YouTube世界已经15年了,OpenAI刚刚展示的东西让我说不出话来…”他认为,Sora将带来以下这些改变:
● 动画师和3D艺术家的工作可能有危险了库存素材网站将变得无关紧要
● 任何人都可以立即拥有出色的B-roll(辅助镜头)
● 制作精美视频的门槛降至零
● 在一个每个人都能制作出美丽视频的世界里,内容背后的“想法”和故事变得更加重要
● Sora将真正颠覆教育、视频论文和解说视频的细分市场
AI创业公司创始人:五年之后,你将能够生成完全沉浸式的世界,并实时体验它们
Takeoff AI是专注于AI Tools的创业公司,它的创始人认为这一波OpenAI新技术的最大受益者可能是虚拟现实。“在两周内,我们连续有了苹果的Vision Pro和OpenAI的Sora文本到视频AI模型。五年之后,你将能够生成完全沉浸式的世界,并实时体验它们。Holodeck(应该是指今年火爆的掌机Steamdeck的虚拟现实版本)很快就要来了。”
除了这些技术上的猜测和对产业影响的正面预测外,也有老反对派指出Sora的潜在问题不那么容易纠正。
Gary Marcus:Sora奇怪的物理故障可能不是数据中出现的
纽约大学教授Gary Marcus以其对AI领域的深刻见解和对现有技术的批判性思考而闻名,他的观点和研究对AI社区产生了重要影响。他表示“Sora奇怪的物理故障(例如动物和人在人群中自发出现和消失)令人着迷:这些错误可能不是数据中出现的。这种小故障在某些方面类似于LLM“幻觉”,即从有损压缩中(大致)解压缩产生的伪影,而不是来自这个世界的东西。”

而且这种错误在他看来是一种“与现实世界物理学的系统性偏差,可能很难纠正。”
事实上,OpenAI也并非毫无对手。和Sora同一时期发布的还有谷歌的Gemini1.5 Pro,根据官方数据,其支持长达 100 万个 token,远超当前其他基础模型,可以一次性处理大量信息,如 1 小时的视频、11 小时的音频、超过3 万行代码或超过 70 万个单词。
Sora当然是OpenAI领先的有力证明,但更像是大模型这个“大力出奇迹”赛道竞争升级的信号。
点击下方您感兴趣的蓝色文字:
说点击下方 “在看”
能让运气变得更好哦~
继续阅读
阅读原文