整理 | 傅宇琪、核子可乐
日前,由波士顿动力、特斯拉、谷歌 DeepMind 和 Archer Aviation 等大厂的前员工创立还不到两年的机器人初创企业 Figure ,展示了其与新投资方及合作伙伴 OpenAI 间的首次合作成果。而且必须承认,此番出手的确令人印象深刻。
3 月 14 日消息,Figure 公司联合创始人兼 CEO Brett Adcock 在自己的 X 账户上,发布了一段视频,展示了他们的全尺寸人形机器人 Figure 01(音为 Figure One )在 OpenAI 强大模型的支持下,进行的一系列对话交互。
Figure 公布的视频如下:
它能和人类描述眼前看到的一切:
我在桌子上看到了一个红色的苹果,沥水架上面还有几个盘子和一个杯子;然后你站在附近,手放在桌子上。  
听到人类说“想吃东西”,它就马上把苹果递过去。Figure 01 还能同时处理两项任务:一边整理桌上的垃圾,一边和人类解释说给苹果是因为这是桌上唯一能吃的东西。最后,准确地将餐盘和杯子放回了沥水架。
整个过程,Figure 01 动作十分灵活、流畅、迅速,只是反应速度比正常的人与人对话稍慢一些。
对此,一部分网友认为,这真是太酷了!有网友甚至已经迫不及待地给 Figure 01 安排上任务了。(怎么还混进了机器人前辈的电影)
嘿,figure 1,我出去一下,请打扫屋子,洗洗碗,带狗出去遛遛. 在我回来之前,你可以随意看会儿《终结者 2》,但别胡思乱想,好吗?
而另一部分网友在震惊之余也流露了隐隐担忧,Figure 01 会不会最终进化成杀死人类的“终结者”?不过,网友们也没有放弃玩梗:看,那是爷爷!
所有这些,都是机器人自学的!
Adcock 提到:“视频中展示的是端到端神经网络,不涉及任何远程操作。而且,画面完全以 1.0 倍速连续拍摄而成。”
也就是说:视频没有像之前的人形机器人演示视频那样通过悄悄加速来让动作显得更流畅,也没有人类躲在幕后远程控制机器人的行动。机器人的速度,在越来越接近人类。
Figure 机器人操作高级 AI 工程师 Corey Lynch 介绍了此次 Figure 01 的技术原理。他表示,Figure 01 现在可以做到以下这些:
  • 描述其视觉体验
  • 规划未来的行动
  • 反思自己的记忆
  • 口头解释推理过程

他也解释道,视频中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度(1.0x)运行。
在具体实现过程中,他们将机器人摄像头中的图像输入,并将机载麦克风捕获的语音文本转录到由  OpenAI 训练的大型多模态模型中,该模型可以理解图像和文本。该模型对整个对话记录进行处理,包括过去的图像,从而获得语言响应,然后通过文本到语音的方式将其回复给人类。
此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到 GPU 上并执行策略。
最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。
Figure 未来将走向何方
Figure 的演示视频似乎标志着人形通用机器人交互正迎来重大飞跃——可以看到,这台机器能够与人非常自然地交互、遵从指令、凭直觉理解对方的需求,而且完成任务的能力明显超越以往企业及研究机构发布的同类成果。
然而,我们看到的仍然只是演示,甚至仅仅属于原型设计。要让这样的机器人做好商业部署准备并正式出售给企业及 / 或个人用户,恐怕还有大量准备工作要完成。不过 Adcock 在 X 帖子中公开表示,“我们的目标是训练一套世界模型来操作十亿数量级的人形机器人。”
在 Figure 网站上,Adcock 用第一人称提出了“总体规划”,强调“ Figure 的目标是开发通用型类人机器人,对人类产生积极影响,为子孙后代谋求更美好的生活。这些机器人能够代替人类承接那些不够安全、人们不愿做的工作,最终让我们享受更快乐、更具方向性的生活。”
但 Adcock 也同时补充道,“我们公司的旅程还需要数十年时间的推进,更离不开一支致力于这项使命的出色团队、数十亿美元的投资与工程创新。只有满足这一切,我们才有可能在大众市场上形成影响。无需讳言,我们面临的风险极高、获得成功的几率则极低。”
他还发誓,“我们不会将人形机器人用于军事或国防应用,也不会利用其对人类造成任何伤害。”
Adcock 与 Figure 此番在 OpenAI 的支持下取得重大进展,也许会给人形机器人领域的竞争对手带来更大的压力,包括特斯拉旗下的 Optimus 项目,以及与亚马逊合作开发人形机器人的初创公司 Agility 。
与此同时,正有越来越多的企业进军这一领域,包括 Hugging Face(该公司刚刚出任一位前特斯拉 Optimus 科学家来领导最新公布的开源机器人项目)以及前几天刚刚宣布成立的初创公司 Physical Intelligence。
参考链接:
https://twitter.com/adcock_brett/status/1767913955295744449
https://twitter.com/coreylynch/status/1767928843585949708
https://venturebeat.com/ai/openai-powers-a-robot-that-can-hand-people-food-pick-up-trash-put-away-dishes-and-more/
 内容推荐
InfoQ 独家邀请了潞晨科技创始人兼董事长尤洋,从技术原理、复现路径和实际应用成本考量三方面深入解读 Sora 技术和应用可行性。本次技术解读共包含Sora 的技术原理和关键组成、快速复现和集成 Sora 的指南、成本效益和实际应用考量三个核心要点,帮助大家理解 Sora 的核心技术、快速实现和集成 Sora 到自己的项目中,并提供考虑成本效益和实际应用的指导。关注「AI前线」,回复「Sora解读」获取解读视频及文字资料。
继续阅读
阅读原文