詹士 发自 凹非寺

量子位 | 公众号 QbitAI
意念打字新纪录诞生!
受试者通过植入设备,平均输入速度能达每分钟62个单词,是团队之前纪录的3倍。
同时准确率也有明显提升,面向50个单词词汇表,识别准确率比先前纪录提升2.7倍。
据研究者称,这已开始接近正常人沟通速度(每分钟160个单词)。
不信?那就看看现场实况。
受试者“按词输入”,点点头就出了个句子,还是蛮丝滑的:
相比下,此前研究按“字母”逐个输入,显得更费劲不少:

2021年登Nature封面的成果展示
创造该纪录的团队来自斯坦福,前两天,他们刚将相关论文预印本放上bioRXiv,引来不小关注。
未参与项目的加州大学旧金山分校研究员Philip Sabes,将之称为“重大突破”。他认为,相关技术很快将走出实验室,进入落地阶段。
不少网友也对该成果也相当兴奋,Reddit点赞上万,有人恨不能立马给家人整一套。
值得一提的是,论文发表同一天,共同主要作者之一的Krishna Shenoy因胰腺癌去世,不少学者与研究机构为此悼念。
所以这回,科学家们如何创造出意念打字新纪录?与之前方式有什么不同?
继续往下看。

识别开口说话的神经活动情况

意念打字过去一直是脑科学领域的热门研究方向,也备受社会大众关注,更早之前的实现方法是——让受试者在脑中手写字母,或是在脑中读出特定读音,再靠系统识别。
此次,科学家们用了不同的信息识别办法——直接让受试者“说”出来,哪怕只在大脑里。
具体来说,他们依靠一套语音脑机接口(BCI)系统,识别人类说话中相关的口腔、面部神经活动情况,通过解码其动作控制信号,再去输出受试者想表达的文本。
基于上述思路,科学家们开展了一系列实验。
此番受试者是一位女性,时年67岁,她在57岁时被诊断出患有肌萎缩性侧索硬化症 (ALS),该病症让她在很长时间被吐字发音不清折磨,说话仅能发出几个元音,辅音几乎很难分辨。
为保护隐私,该受试者被团队称为T12,2021年的研究中,他们也用了同样方法,将另一位男性受试者称为T5。
2022年3月,经当事人同意,科学家为其在脑中植入四个微电极阵列,以检测语言相关神经活动情况。
在植入后的实验中,科学家先让受试者尝试做不同动作,观察相关区域的神经活动状况。
比如,让受试者睁眼、闭眼、眨眼以观察控制眼皮相关神经元活动;再比如让嘴唇张开、闭合、微笑,以检测相关脑区活动。当然,实验观察部位还包括:额头、下巴、喉部、舌头等。
科研团队发现,不同动作之间神经活动高度分离,在特定检测频率下,他们针对34个口部面部动作进行解码,准确率为92.7%,若面向39个音素,解码准确率为60%。这侧面说明原计划具备可操作性。
下一步是将说话的相关神经活动和文本关联起来。
科研工作者预先准备了一个RNN解码器,以80ms为间隔,检测识别神经活动信号,这当中,神经网络会依靠最大概率判断输出单词,错误的发音也将被纠正,最终输出文本。
为训练该网络,受试者需要每天尝试输出260-280语句的数据。
百天之后的测试中,无论是否发出声音,对单词的识别速度均在每分钟50词以上,该表现大约是该团队此前2021年纪录的3倍。
且无论面向50个单词,还是12500个单词,解码效率差异不大。

识别错误率也有大幅改善。
针对50个单词的表达,识别错误率在9.1%,即便受试者进行不发声表达,错误率也仅11.2%。
针对12500单词库时,表达识别的错误率为23.8%,不发声输出错误率为24.7%,该错误率与之前研究面向50词的测试情况正误情况基本持平,能看出该方法准确度大幅上升。
上述测试之外,科学家还探究了哪些方向能进一步优化该系统。
他们考虑了三个维度——语言模型词汇量、植入脑部电极数量、训练数据集大小。
结果显示,随着单词数量提高,错误率的确会升高,但在1000词量级趋于平缓(下方左图),团队由此认为,日后研究通过压缩单词数不一定有效。
但对于植入电极数量来说,更多的通道数(精度)的确会带来错误率降低。如下方右图,从500提升到1000,错误率从4%,降低到了1.9%。
另值得一提的是,即便未经训练,面向新数据,系统单词错误率也只有30%。且通过训练,错误率会不断下降。
对于后续研究,团队指出该成果目前还不是完整的、临床上可落地的系统。此外,24%错误率在日常生活中也还不够低,后续研究将在各方面努力。

意念打字一直热度不减

本文一作是Francis Willett,来自斯坦福霍华德休斯医学研究所,主要研究领域为脑机接口、运动神经科学,他也对人工神经网络模型有所涉猎。
2021年登上Nature封面的意念打字研究中,他也是一作。跟上次一样,此番他表示——将会公布研究的代码和数据。
另一位主要作者是Erin Kunz,来自斯坦福电气工程系在读博士,此前,她还曾在通用担任自动驾驶工程师。
前文提及刚刚过世的Krishna Shenoy也是本文主要作者。
2021年登Nature的论文,他亦是贡献者之一,此前研究中,他破译了与手写笔记相关的大脑信号,让截瘫患者快速准确地打字。
该项工作十分关键,因为当时他们使用的方法是——让受试者在脑中“写出”字母
除该团队,在“意念打字”这件事上,还有更多科学家在努力。
比如2022年11月,加利福尼亚大学旧金山分校(UCSF)提出的一种不同方法。他们通过植入128通道皮质电图(ECoG)阵列,外加一个经皮连接器,用来连接植入设备和外部系统。
在识别方式上,他们所想到的是——让受试者在脑中默念字母NATO代码(比如α代替a,β代替b),完成逐个字母输入,平均2秒可键入一个字母,最终平均字符错误率仅6.13%。
之前,量子位智库对该趋势也有所展望,认为“意念打字”乃至背后的脑机接口技术已在商业化发展上初具雏形。
清华李路明团队、瑞金医院、浙江大学及浙大二院神经外科等团队或机构,均有所积累。
另值得一提的是,去年末马斯克及Neuralink还让猴子搞了一回“意念打字”,虽说是用训练猴子意念点击屏幕中的黄色按钮,但也算“蹭”了一波。
当时,马斯克还说,他和Neuralink已向FDA递交了诸多文件,预计6个月后(预计今年六月)开启人体试验。
但能不能等到,还真不一定……
毕竟同样的话,他在2022年4月已说过一次了。(狗头)
参考链接:

[1]
https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/
[2]https://www.freethink.com/hard-tech/speech-bcis
[3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~ 
继续阅读
阅读原文