「世界人工智能大会第一天关于大模型本身的技术讨论并没那么多」
记者:张司钰、陆彦君
编辑:吴洋洋
时隔3年,上海主办的「世界人工智能大会(WAIC)」再次回到线下,在上海世博中心举办。
和疫情前一样,大会主会场设在世博中心,包括华为、阿里巴巴、腾讯、商汤等在内的科技公司都在这里设立了专场论坛。而在两条马路之隔的世博展览中心,据官方数字,共400家企业设置了展位,展示各自从大模型(Large Language Models, LLMs)到芯片、机器人、自动驾驶等领域的产品。马斯克的人形机器人Optimus(擎天柱)也在其中占据了一席之地。
同样与疫情前一样,马斯克出现在了这场大会的开幕式上,并且发了言。他上次在会议中出现是在2019年,当时和他对谈的人是马云。
整场大会分为3天举行,今天是会议的第一天,虽然分论坛众多,当天也有众多公司宣布他们的产品中使用了「大模型」,比如网易教育旗下的口语练习应用、WPS的最新版办公软件……但关于生成式AI本身的技术讨论并不是很多——除了图灵奖得主LeCun在大会开幕式上再次重申他认为ChatGPT对人类社会毫无威胁、也不是AGI终局的观点。
相反,在第一天的会议中,关于「脑机接口」和「人形机器人」议题的讨论更具有实质内容。它们一个深入讨论了脑机接口走向现实的可能性,其中一家中国公司当天发布了将「柔性电极」植入大脑的手术机器人。「人形机器人」议题则直面了目前人工智能的技术成熟度高于机器人成熟度的现实——这都要拜生成式AI所赐,在生成式AI之前,人工智能基本属于「人工智障」,当时,机器人的技术成熟度高于人工智能,现在则反了过来。
脑机接口:从学术走向现实
「脑机智能与数字生命」主题论坛上,来自以色列的Nano Retina首席执行官Raanan Gefen,介绍了其通过向视网膜植入芯片,从而治疗失明的「眼机接口」技术。
实验中,失明患者的眼球中植入芯片后,再戴上一个有摄影功能的眼镜,眼镜产生的影像数据经由视网膜芯片解码,再传入大脑皮层,刺激那里的视觉皮层产生视觉。
这项应用使用的是「电刺激可以激发视觉」的理论。早在1755年,法国科学家Charles LeRoy就证明了电刺激能使大脑的视觉皮层产生视觉。此后,科学家们便尝试通过各种方式在失明患者的脑中实时重现视觉。
脑虎科技CEO彭雷随后介绍了他们的「脑机接口」(Brain-Computer Interface,简称BCI)技术。通过向大脑植入柔软而可弯曲的电极,记录下脑神经元的电活动,解码这些电活动产生的数据后,就可以用脑电信号直接理解人的意图。
用猴子的脑信号控制游戏。
整个过程中最重要的环节是解码。脑虎科技使用了恒河猴做游戏解码实验:先训练猴子学会打游戏,一个月后,等它学会打游戏,植入脑机接口,采集脑电信号和手部动作,这种脑电信号与手部动作之间的关联成为解码关键,由此产生的算法可以在拔掉猴子的游戏手柄插头后,仍然能够通过解码猴子的脑信号控制游戏。
在猴子身上完成实验后,脑虎科技已与华山医院和上海科技大学等大学合作,进一步完成了人类语言的初步解码实验。通过把一个256通道的柔性皮层电极放置在正进行大脑手术的患者脑中,他们完成了「术中汉语语调语音的初步解码」,解码器能够重复发出受试者在试验中说出的ma(一声)、ma(二声)、ma(三声)和ma(四声)音调。
用机器人向大脑植入电极。
「BCI(脑机接口)和AGI看起来是智能的两极,但通过在人脑植入电极,我们正在把人脑数据变成电脑可以理解的数据,从而把电脑和人脑连接起来。」脑虎科技创始人陶虎说,在脑机接口领域,他们已完成两例动物实验,3例临床试验。
人形机器人:把生成式AI与机器人结合起来
ChatGPT发布之后,很多机器人公司都迫切想要把这颗够聪明的大脑装进他们的硬件机器。这一愿望令人兴奋,如马斯克在开幕式上的给出的观点:「未来,地球上会有大量的机器人。」随着时间推移,机器人与人类的比例会是多少?马斯克认为,在将来某个时刻,二者的比例可能超过1:1,这意味着机器人将比人类多——甚至多很多。
而之所以要把机器人做成人形,EX机器人联合创始人李博阳认为,原因是「我们使用的所有工具,都是基于人的手、身高与使用习惯打造的,把机器人做成人形,就能快速适应」。 
但构建出足够智能、高效、低功耗甚至能与人共情的人形机器人的挑战仍然不少。

首先,无论语言大模型还是视觉大模型,都缺乏对外部世界的感知能力。「ChatGPT诞生后,许多人认为对着ChatGPT说一句话就能控制机器人,似乎是可行的。然而ChatGPT背后是「逻辑关系」(Logic relationship),驱动机器人不能只有逻辑关系,还需要时序(Temporal relationship)与空间(Spatial relationship)两个维度。」香港大学工业及制造系统担任机器人与自动化首席教授席宁说。
马斯克在世博展览馆展出的「擎天柱」。
以完成一个具体任务来说,机器人首先要有建立行动的逻辑关系,规划好行动步骤的先后顺序。接着,执行步骤时就需要行动轨迹,这涉及到空间理解问题。只理解空间还不够,人类还要告诉机器人要走多快,此刻又会涉及到「时序」。
席宁认为,目前的大语言模型只具有逻辑维度的理解能力,尚不具备空间理解和时序理解能力。为建立这两种能力,机器人必须「具身」(Embodiment),装上各种传感器,建立对环境和自身的「测量能力」。
在ChatGPT出现之前,科技界就已经出现过一批做人形机器人的公司,与这些既有产品相比,上海交通大学元如机器人研究院副院长盛鑫军更愿意把接入大模型的机器人称为「人形机器人2.0」。他预测,10年后,人形机器人就会像现在新能源车一样跑在道路上。不过,在此之前,工程师们仍然需要解决机器人的电机问题。
「人坐累了,可以躺着。但机器人始终要保持站的姿态,始终高负荷运转,更高效、低功耗的电机会是一个问题。」盛鑫军说。
中电科机器人有限公司机器人中心主任王春雷认为「目前人工智能的成熟度领先于机器人本体」,想要把GPT装进机器人,机器人公司需要反过来追上人工智能公司的进度。
-END-
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
若想了解更多头条新闻,请点击阅读往期智能晚报
喜欢就关注我们吧,记得设为星标」哦~
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
再次,喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文