真格精酿回顾：如何找到具身智能商业价值创造的关键？

Z Events 是真格的活动栏目。「真格精酿」系列活动从 2019 年起，已走过 4 年，旨在帮助创业者更深入地洞察行业赛道，发现科技前沿机会，结交更多志同道合的创业伙伴。

12 月 22 日，真格基金在上海举办「真格精酿·具身智能圆桌派」线下行业沙龙，邀请到了近五十位具身智能领域的创业者、前沿研究者、资深从业者，与真格投资人一起，从不同视角深入探讨具身智能领域当下所面临的机遇与挑战。

1954 年，乔治·德沃尔（George Devol）提出了用于工业重复作用的机器人专利申请，并于之后创造了世界第一台可编程工业机器人“尤尼梅特”（Unimate）。

所有故事的起步总是艰难无比。彼时的机器人重达 2 吨，造价 6 万美元，首笔订单却仅以 2.5 万美元价格售出。直到机器人在生产线上的优势被实践不断证明，机器人才开始进入更多的工厂车间。

近 70 年后的今天，LLM 大模型和多模态能力让 AGI 技术实现快速突破。作为迈向 AGI 的重要一步，具身智能向我们展现出了巨大的应用潜力和市场前景。作为一家活跃的天使投资机构，真格基金密切关注具身智能领域的发展，在工业机器人、关节减速器、自动驾驶等周边领域已布局多年，也一直在观察和寻找最具潜力的团队。

本次活动我们有幸邀请到了浙江大学刘勇、浙江大学高飞、清华大学吴翼、清华大学赵昊，MagicAtom 喻超、舞肌科技潘韫哲、Daxo 张家豪等嘉宾，与真格基金投资团队尹乐、陈勉诺、张佳奇，围绕具身智能机器人的技术发展、应用场景和产业前景等话题进行交流探讨。

时值冬至，严寒却丝毫没能阻碍大家参与的热情。我们在本次活动招募中共收到了 200 余份朋友们的报名，为了保证闭门沙龙中大家都能有充分的交流空间，我们最终只能邀请到部分观众来到线下参加本期精酿。不过，我们整理出了本次活动中部分嘉宾的发言以及现场观众的问答内容，希望能给大家带来一些启发，也欢迎各位在评论区与我们交流。

碎片场景归一化是创造商业价值的关键

浙江大学教授刘勇

不同于互联网时代的爆发性增长，受现实中成本及数量的制约，具身智能机器人的发展更像是一个缓慢爬坡的过程，其市场数量和成本之间存在着一定矛盾——没有市场时成本一定很高，而成本高则无法在短期内达到市场所需数量。

很多人认为家用机器人的发展前景非常好，市场十分诱人，但以目前的供应链来看，仍需优化用户体验和价格这些重要影响因素。过去在工业领域，机器人只需要准确地执行重复的动作，做一件事情。但是日常生活中的场景非常离散和碎片化，需要为每个场景定制工作方案。

基于此，我认为引入大模型是一个有效的解决方案。大模型可以帮助我们将这些碎片化场景归一化，使机器人能够以统一的方式来处理不同场景的需求。这也是将大模型引入机器人创造商业价值的关键，挑战和机遇并存。

无人机送外卖之外，

集群智能的产业化及应用落地

浙江大学长聘副教授高飞

在集群智能的研究和应用中，大家面临着一个核心问题：它的实际应用场景是什么？虽然学术研究已经描绘了许多应用方向，但除了某些展示性的应用，例如无人机灯光秀，真正被产业界所关注和需要的问题到底有哪些？

在多年学术研究过程中，我对集群智能的产业化也有些自己的思考。相信大家最近也关注到，美团已经在深圳试点用无人机在送外卖，对于这种应用我是很乐见其成的。某种程度上，我认为如果我们研究集群、研究无人机连这样的应用场景都解决不了，那这项技术就也永远只能存在于论文中。在这些应用场景中，需要解决在狭窄区域内局部通讯丢失下的去中心化的规划、感知等问题。以此类推，送外卖、送快递、仓储货运等场景都存在着潜在的应用价值。

另外比如现在国家推行精准探绘，林业局需要雇佣林业员定期进入较大的树林，去测量树木的成长情况并标记树木的位置。这个过程如果能由一群飞机全部完成，这也是一种应用场景的延伸。此外，我觉得最硬核的应用场景就是灾后搜救响应，这个需求始终存在，希望能够在未来看到无人机很好地完成这件事情。

具身智能或是 3D AIGC 现阶段最好的应用方向

清华大学助理教授赵昊

目前行业内的各种迹象都表明，我们未来的记忆、场景等都可能会以三维的方式保存，所有东西都将从 2D 迈向 3D。那 AIGC 行业未来的消费场景在哪里？

在 2D AIGC 领域，像 Stable Diffusion 这些基本上是开源的，因此技术已经不构成门槛条件。3D 领域 AIGC 的话，虽然未来 6 到 12 个月会有技术驱动企业的一个身位优势，但是整个 Metaverse 的行业逻辑是不成立的，这就导致整个产业化确实面对着很多困难。所以我个人觉得，具身反而是这块应用的最好一个赛道，因为它逻辑是成立的。较大的行业，例如自动驾驶，很多车厂也对此应用非常感兴趣。

通过视频模型实现预训练可能成为未来通用方式

清华大学助理教授吴翼

从虚拟机器人的角度考虑，互联网上可能没有很多 3D 操控的机器人数据，但有很多关于人的视频。有人会问，那智能体能否通过现有的互联网的内容生态来去学到具身智能的相关信息，并根据其中的视觉和音频信息学到自己应该如何去做，再把这种智能迁移到其他机器人中呢？

我认为这是有可能的，核心就是视频模型。比如我们想让机械狗像人一样站起来，这其实非常容易，只要让它知道人站起来的样子，学习通过控制的方法把中间链接起来，这件事情就完成了。最近这个领域的很多工作都是通过视频模型的方法实现的。先让机械臂或机器人观看需要完成的任务，再通过给定策略（policy）或者控制（control）的方法，把每一帧或每个中间的子目标（subgoal）、子帧（subframe）连上，虽然这里面也存在很多问题。所以从逻辑上讲，我觉得这是有意义的，与直接训一个机器人模型相比，这很可能会成为未来通用的方式。

关注市场容量够、能接受高成本的行业落地机会

MagicAtom 联合创始人喻超

我觉得当前具身智能落地大部分行业都是伪命题。因为这类改造很难在低算力的平台实施，所以在一些低成本产业中基本上看不到太多机会。这也导致市面上提及具身智能概念时，总是说为什么价格还没有打下去。

但在市场容量够、单机成本较高、能平摊研发收入的行业里，具身智能是有很多机会落地的。此外，在 IP 娱乐行业，具身智能也有一定机会的。因为这一类客户的买单意愿较强，且对执行出错的容忍度较高。具身智能也可以在硬件平台载体里做很多事情，比如从 BOM 出发，也会存在一些 BOM 成本较高或利用率较高的单品，不管是支撑整个通用人型核心的关键模组，或关键模组中利用率较高的编码器。

人形机器人领域很难出现绝对龙头

舞肌科技创始人潘韫哲

人形机器人在每个层面都需要做大量不同的工程，根据特定需求去进行硬件设计。因此目前还不存在一个通用型机器人可以完成全部的事情。这就导致行业格局比较分散，无法形成规模，也不太可能产生绝对龙头。比如我们现在可能认为特斯拉是人型机器人的龙头，但其应用的汽车制造场景也只占整个工业非常小的一部分。并且其他汽车工厂也会选择培养自己的机器人，最后很难有一家能够统一整个市场。

正如人类社会存在分工，不同需求的设计是存在成本和功能性取舍的，所以机器人也应当有分工。如果我们去追求一个「万能」的机器人，其实最终会导致一个「万不能」的情况出现。在我看来，虽然人形机器人最终可能会缺乏绝对龙头，但针对各个细分领域的市场需求，市面上应该有不同的小而美的公司出现。

机器人不应囿于「形」和「智」

Daxo 创始人张家豪

跟大家分享一下我对「形」和「智」局限性的一些思考。「形」的方面，我听好多人说，世界是给人设计的，所以我们要做人形机器人。但按这种逻辑来说，需要记得世界是给人设计的，而不是给人形设计的。有时我们会过度思考形态，而忽略了动态等内容。比如在控制软体机器人时，只考虑形状它必须动得很慢，却忽略动态就会导致做事很慢。人的皮肤表面其实也很柔软，存在被动性方面的优势，只考虑人形就可能会忽略这方面。所以在做机器人的形态时，需要针对一些垂直应用把这些局限性考虑进去。

「智」的方面，存在莫拉维克悖论（Moravec's paradox，和传统假设不同，人类所独有的高阶智慧能力只需要非常少的计算能力，例如推理，但是无意识的技能和直觉却需要极大的运算能力）。在过去多年的研究中，我们发现推理能力和智能并没有这么难，但驱动和感知是非常难的。现在很多人认为 ChatGPT 跟人类的智力水平差不多，甚至比人类平均智力要高。但从传感器和驱动器的角度来讲，人的手指可以感受到大概九到十纳米高度的不同，但传感器其实并没有达到这种程度；人的眼睛可以达到几个光子的灵敏程度，但现在的照相机与其相比其实要低维很多。我们在认为大语言模型可以极大赋能机器人时，也要冷静地分析当下它是否被高估了？

目前做通用机器人到底缺什么？

在各方面评分如何？

真格基金投资经理陈勉诺：无论是做机器人本体、机器人大脑，还是做具身智能机器人或生成模型，大家如今可能都在关注，如果我们要做未来各家各户都能使用的通用机器人，到底还缺什么？如果以 100 分去计算，那在规划（planning）、感知与理解（perception and understanding）、定位（locomotion）、操纵（manipulation）、抓取（grasping）都达到了什么样的分数？在各位熟悉的领域里，它大概何时会出现不一样的变化？

清华大学助理教授吴翼：如果分开说的话，我觉得每个模块的操作分数其实都还可以，但最困难的是两个模块间连接的地方。比如我要去开一扇很重很大的门，就需要多模块相互配合：先走过去把门拉开，使用很大力气的同时还需要保持平衡，不能摔倒。

上海交通大学助理教授徐璠：我认为很难以一个比较客观的分数去定义机器人的发展。如果真的要把机器人引入实际生活，涉及到如何让机器人从人类描述的语言中理解我们想做的事情，这就需要探讨如何结合大模型理解生态化环境，进而转换到机器人的任务层面。除了对人机交互场景的理解，交互性技术在运动策略层面也不是特别成熟。这不仅需要我们从人类语义的理解方面去做一些研究，也需要从交互策略本身去探索任务规划及控制方案。

清华大学助理教授赵昊：我认为对于具身智能来说，分开打分比较难，但因为没有特别好的仿真器，我们也无法联合打分。整个学术领域也在期待机器人界能够出现一个非常好的仿真器，我们可以在里面刷新分数，加速整个行业发展。

其次，视觉其实是整个具身的基础，限定情况下它的表现已经非常好了，能够达到 90 分。但在现实社会和生活中，我们会面临各种各样的边界情况——视觉什么时候能处理所有的情景？视觉学习时代什么时候到来？这是我们整个视觉界最核心的一个问题。我认为能够把视觉学习做成像 ChatGPT 那样是通往最终答案的一条道路，这将会是一个巨大的突破。我大胆预测在 6-8 年后，这个问题会被解决。但目前这个事情才刚刚开始，可能只能达到 10 分。

推荐阅读

继续阅读

阅读原文

关键词

大模型

技术

人形机器人

领域

真格精酿回顾：如何找到具身智能商业价值创造的关键？｜Z Events