愿天下再无 APP。
-----------------------
编辑|Moon
来源|青投创新
据外媒消息,近日由华人吕聘创立的 AI 公司rabbit(前身:Cyber Manufacture Co. )又获得了一笔千万美元的融资,这是他们近两个月以来所获得的第三笔融资。
两个月前,rabbit曾获得美国著名科技富豪、风险投资家科斯拉(Vinod Khosla)的千万美元;随后再获韩国互联网巨头 Kakao 的数百万美元投资,而最近的这笔投资则属于科斯拉的继续加注。
据相关人士透露,rabbit 近期在内部进行了一次大型行为模型的技术展示,他们的技术和产品的进展速度得到了科斯拉团队的认可和赞赏,于是做出了追加投资的决定。
这三笔融资的总额为 3000 万美元。
这家于本年初创立的新起之秀和其背后的华人创始人,再次成为世人关注的焦点。
01
rabbit的崛起:剧情互动
rabbit  inc.,是一家基于大型行为模型(LAM,Large Action Model)研发下一代操作系统的 AI 公司,前身为「Cyber Manufacture Co.」。
rabbit上,用户可用自然语言与机器进行对话交互,新系统(rabbit OS)不但能理解人的复杂意图,还能直接帮人操作应用程序完成任务——用此替代目前用户与手机 APP 的触控交互,进一步革新人机交互的效率和体验。
2023 年 1 月,rabbit曾发布技术预览版 Quantum Engine,用户可以上传剧本,选择角色与 NPC 自由互动,由 AI 实时生成无限剧情互动,支持英文、中文、日本等多种自然语言的交互。
以下面这段视频为例,在《黑客帝国》的框架里,用户扮演的正在与 AI 加持的 NPC 墨菲斯互动。
这些对话都是《黑客帝国》剧本中完全没有过的对话和场景,AI 学习了人物关系、表达逻辑和角色人物,NPC 墨菲斯能够在故事设定框架里与用户随机互动,开展无限的故事剧情互动。
后来有媒体在 2.14 情人节用预览版的技术引擎进行了一次 24 小时不间断的 AI 直播测试,吸引上了万人观看,引发传媒界讨论该如何与 AI 技术进行业务结合。
几个月后,他们公布技术预览中的两项核心技术 kernel 和 LAM 已获得技术专利,将用于下一代操作系统 rabbit OS 的研发当中。
据其团队介绍,行业在 AIGC 生成游戏剧情方面探索已经很多年,不过此前预览发布都基本是视频演示,用户只能观看感受,而他们这次发布的技术预览已经可以让用户上手体验了。
目前支持玩家扮演故事中的某个角色,用自然语言与 NPC 任意互动,AI 会实时提供互动台词与剧情推进,在游戏剧情方面实现了千人千面的个性化体验。
很快他们将在下一版本的更新中上线用户自主上传故事剧本让 AI 学习,用户可选择任意角色与其他 AI 角色互动的功能。
长远来看,他们还将重点推进 AI 生成剧情与游戏画面的结合。
02
rabbit的理想:去APP化
rabbit的出现,是为了解决APP冗余的问题。
今我们每个人的手机上都安装了几十上百个不同的 APP,一项美国的调查数据显示,平均每部手机安装了 80 个不同的 APP,而每天都会使用的 APP 平均为 9 个。
过分冗余的 APP 现象对消费者和开发者都造成了困扰。
而在开发端,一方面严重造成了重复开发资源浪费,另一方面还导致了不健康的开发倾向——不择手段地将用户留在自己的 APP 上消耗时间,谋求更多的用户使用时间以换取更高的流量价值,而不是更有效率地帮助用户实现任务意图。
随着用户使用智能设备的时间越来越长,困在冗余 APPS 中所浪费的时间也越来越多。
而这一现象的根源在于目前的主流操作系统,无论是电脑端还是移动端,都是在某种参数规则的限制内进行构建,遵循严格而传统的用户界面(UI/UX)进行交互,虽然人们已经被这种交互界面所「驯化」了十几年,但它仍不是最自然、最简单、最高效的理想交互方式。
大型行为模型 LAM 则希望终结这一现象,以此为技术基础的下一代操作系统 rabbit OS 可以实现通过自然语言对话的方式准确理解用户的意图,进而自主找到最适合用户需求的应用程序,并直接完成任务所需要的操作步骤。而对于用户来说,只需要用自然语言说话或者打字告诉它就好。
LAM 的使用体验与 Siri 等语音助手看上去有相似之处,但实则有着本质区别:
Siri 遵循着传统操作系统和 APP 的规则限制,它受限于 APP 的授权和 API 接口,但 LAM 则可以突破 APP 的限制,无论是否开放 API,它都可以在云端服务器上像真人操作一样完成各种任务的应用操作。
就比如你可以「嘿,Siri 帮我放一首歌!」但你无法实现「嘿,Siri,帮我订一份最爱吃的披萨送到家里」。
但 LAM 可以,因为它知道你爱吃什么披萨、收货地址,并且有能力帮你操作设备上的应用程序。
作为下一代操作系统的核心技术,在帮助用户执行任务的过程中,LLM 与 LAM 的角色功能同等重要,前者用于理解用户意图,后者用于执行用户意图。
rabbit正在做这样一件很酷的事。
rabbit 研发团队尝试过用最先进的 LLM 模型进行应用程序的理解任务。尽管 LLM 已经表现出理解和利用应用程序编程接口的能力,但应用程序的用户界面与文本内容有着根本性的不同,这导致 LLM 的任务表现不如人意。
任何交互操作的界面都需要 LLM 进行预处理的步骤——将操作动作转化为原始文本、光栅化图像或某些标记化序列向 LLM 进行提示,然后再让它形成执行动作的命令推理,让 LLM 充当「理解端」到「执行端」的翻译器,但是它很难完成好这个任务。
这种使用 LLM 进行交互执行的方式还有一些显著的缺点,比如将操作动作转化为标记化序列或像素数组会丢弃了应用程序中包含的重要结构信息,又比如解释操作步骤和操作逻辑的文本太长、太晦涩,即使是使用最强大的大型语言模型也难以理解。
除了 LLM 难以实现预期以外,想实现新的自然语言交互体验面临一系列问题,其中最重要的就是在目前流行的操作系统规则下无法获得足够的 API 来实现各种应用程序的操作。
于是,rabbit 训练了新的大型行为模型 LAM 来解决上述问题。让 LAM 通过观察模仿人类使用应用程序交互界面的过程,进行可靠的学习复制。
LAM 很快学会了在人类演示中各种应用程序的界面逻辑,哪些符号按键代表什么意思?如果点击会进入怎样的新界面?不同应用程序之间的 UI 设计有什么异同,虽然颜色和形状会不一样,但交互逻辑其实完全一样……
如此一来,LAM 掌握了足够的人机交互的知识,可灵活用于各种应用程序的执行操作,无论应用界面如何迭代改变,LAM 依然能像真人一样理解每个功能按键的位置和意义。
LAM 学习应用操作界面的过程。来源:rabbit.tech
这也让 LAM 和传统的 RPA(机器人流程自动化)有了本质区别:后者只是基于用户界面的坐标系进行仿真点击操作,一旦用户界面发生改变、按键位置偏移,RPA 便会失灵,其稳定性尚不如 API;而 LAM 可以真正理解用户界面的变化,自主找到任务所需的操作步骤从而执行完成。
同时,这一训练过程让 LAM 的学习过程更容易被观察,而不是在黑盒模型中进行推理,从而导致无法控制地输出操作动作。
rabbit 团队表示:LAM 处于语言建模 (LM)、编程语言 (PL) 和形式方法 (FM) 跨学科科学研究的最前沿,从长远来看,LAM 展示了自己版本的「缩放法则」,其中它学到的动作可以推广到各种应用,甚至是生成性应用。
研发团队使用内部标准对 LAM 的实操能力进行了初步评估:虽然尚处于研究早期,但 LAM 已经展露出竞争力,比如在网站应用的导航任务中表现不俗。
rabbit 表示,虽然 LAM 以及 rabbit OS 可以轻松运行在任何智能设备上,但需要给它提供一个更高级别的安全性和可拓展性来进行训练。同时,为了保证 LAM 能够拥有更好的用户交互体验,真正实现用自然语言完成复杂的人机交互,他们还进行了硬件设备 r1 的开发,将搭载具有 LAM 能力的下一代操作系统 rabbit OS。
目前 rabbit 官网已经开启 r1 发布会的邮件预约,将会在 2024 年 1 月 9 日(美国西部时间)正式发布。
其官网 rabbit.tech 已开启预约
rabbit 和瑞典的 Teenage Engineering 团队共同完成了 r1 的工业设计,这也是rabbit团队跟 Teenage Engineering 的再次合作,他们曾共同推出智能音箱设备 Raven H,被《华尔街日报》评为 CES 2018 最佳产品。
03
rabbit的背后:创始人吕聘
站在rabbit背后的男人,是一位优秀的华人创始人——吕骋,他是 AI 领域的连续创业者,6岁开始学习编程,大学时在西交利物浦大学和英国利物浦大学学习金融数学。
大三创立时间匹配社交工具 timeet 2014 年大学毕业后创立渡鸦科技,并推出极简音乐播放器乐流和下一代聊天工具 Flow,于2017 年被百度收购,后来赴美国继续创业成立「Cyber Manufacture Co.」,近期更名为「rabbit inc.」。
骋曾入选《福布斯》2015年中国3030岁以下创业者榜单,2016 年入选《福布斯》3030 岁以下亚洲人物榜。
在一次采访中,当被问及“在人工智能行业他最看中人才的哪些技能和素质”时,吕聘坦言:
"我认为首先是要有想象力,因为这个行业基本上是在预测未来是什么样。
但我的理论是,没有人可以预测任何事,所以你需要非常敢想。不是从落地应用的角度,而是从系统级别、站在更高层次上对未来的社会有一个憧憬和构想,我认为这是非常关键的第一步。
第二就是需要掌握大量的专业知识。
但其实很多时候一个人很难同时拥有丰富的想象力和大量的专业知识,而且这两种人才在职业发展规划中的侧重点也不一样。
所以我认为对于一个公司来说,最好的构成形式就是同时拥有这两种人——我们需要未来的定义者,也需要未来的实践者。
还有最重要的一点就是,要拥有很高的道德准则。因为人工智能有一个巨大的挑战,就是人类究竟能不能控制住它的边界、能不能忍住不去打开“潘多拉魔盒”。
人工智能的很多应用场景其实是充满诱惑的,所以我们需要考虑清楚这个技术在未来会不会对人类社会产生致命的影响,而不能被人工智能所控制。
人的主观能动性是非常重要的,因为人既是人工智能的制造者,同时也是最后的受益者。就是你既是运动员,又是裁判,所以需要很高的道德准则来把控边界。"
网上一直有流传着一份吕骋十年前在宁波 TEDxMoonLake 上的视频,时年 23 岁的吕骋分享主题为《交互理念与未来操作系统初探》。
其核心观点是:以 APP 为基准的操作系统违背了人类的自然交互逻辑,未来的操作系统应该去掉 APP 的外壳,让人以更自然的方式进行人机交互。
2013 年,吕骋在宁波 TEDxMoonLake 演讲
随着大型语言模型的发展抵达技术奇点,以及大型行为模型的创新研发得到行业的更多认可,吕骋比过去任何时候都更接近他十年前所分享的未来愿景,天下无 APP。
「往期推荐」
END
欢迎全国各地以及境外科技、消费、地产、医疗、农业、能源、环保、教育、文化、投行、基金、券商、信托、银行、保险、租赁、投资等产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy,或者在菜单中点击【合作】——>【青投服务】,留下您的需求我们将竭诚为您服务。
青投创新,新型科创产业服务平台,以科技、人才、资本为核心,通过内容出版、数据支持、产业咨询、科技转化等业务,为科技人才创业项目提供孵化及加速赋能服务,助力国家科技兴国计划。
继续阅读
阅读原文