新智元报道  

编辑:编辑部
【新智元导读】想去爬山,有小姐姐陪;想逛博物馆,还有小姐姐陪;身后跟着的机器狗,顺便还能握个爪!这是什么神仙体验?
如何读懂人类大脑的活动,一直是个世界性的难题。
2014年巴西世界杯上,28岁的截瘫青年朱利亚诺·平托身穿基于脑机接口的「机械战甲」为比赛开球。
经历数年发展,脑机接口技术已经成为神经修复最有效的工具之一,是目前解决瘫痪、中风、帕金森病等患者神经功能受损的有效手段,也是全面解析认识大脑的核心关键技术。
作为北京理工大学脑机接口方向的博士,95后的刘思宇一直在思考一个问题:
人脑和外界沟通交流的「信息高速公路」应该如何搭建,才能读懂大脑信息,赋予人类「超能力」——用意念控制各种智能终端。
在2022年科大讯飞AI开发者大赛上,他的团队带来一款AI赋能脑控智能助残轮椅,用脑机接口助力神经疾病群体康复,让肢体残障群体更自由的生活。
实际上,在这次大赛中,像刘思宇这样的团队有3万多个,他们以AI技术为武器,去解决大时代下的每个社会命题,给我们的生活带来更多可能。
和刘思宇一样的Z时代无数开发者们,基于科大讯飞开放平台上的AI能力,正在创造出越来越多的AI奇迹。
从无所不能、形象百搭的虚拟人、到上山下坡如履平地的机器狗,从出口成诗的AI大文豪,到对答如流、体贴入微的聊天小姐姐,可以说,TA们青春与活力的烙印无处不在。
今天,又到了TA们一年一度的节日!
95后,正成为AI开发的新主角!
今天上午,2022科大讯飞全球1024开发者节隆重拉开帷幕。
科大讯飞董事长刘庆峰现身现场,向与会嘉宾做了题为「因为看见,所以坚信」的主题演讲。
他一上来就提出了一个发人深省的问题:
当今世界存在政治、经济等多方面的高度不确定性,在这一背景下,未来经济发展最核心的动力是什么?
答案:数字经济,而人工智能就是数字经济发展最核心的引擎。
而发展数字经济,推进人工智能,离不开千千万万的开发者。
据刘庆峰介绍,过去一年,讯飞开发者团队数量已经达到了370万,过去一年内增长了32%,AI调用量增长了36%。
2022年,讯飞AI开发者大赛的团队数量从2.2万支增长到了3.2万支,增长了44%。增长最快的工业互联网团队达到了10600多个,虚拟现实、元宇宙方向更是达到了1200多个,增长了好几倍。
另外,参赛队伍明显呈现年轻化的趋势,在算法赛中取得前三名的团队平均年龄只有26.5岁。在应用赛中,72%的前三获得者是从来没有融资过的中小企业。
不难看出,随着工业互联网、虚拟现实、元宇宙大潮兴起,Z世代正成为AI开发者主角。
「什么叫年轻?什么叫未来?从这些数据中就可以看得清清楚楚。」刘庆峰说道。
讯飞超脑2030:四大关键技术进展公布
在新的AI时代,越来越多的企业认识到:谁掌握了人工智能,谁就掌握的在全球产业链中的主导权。
风物长宜放眼量。作为以AI创新为核心源动力的科大讯飞,这次把眼光放到了未来,进一步启动了「讯飞超脑2030」远景规划。
据科大讯飞董事长刘庆峰介绍,为了面对未来社会事业、人类发展的刚性需求,未来需要懂知识、善学习、能进化的机器人。
这其中既有虚拟人,又有实体形态的机器狗、仿人型机器人,刘庆峰表示,未来,讯飞要让这些机器人进入每一个家庭、每一个企业。
要让「机器人普惠全民」的目标真正实现,需要大量底层技术的支撑。从技术层面上,此次讯飞的「超脑2030」首先瞄准的是四块核心技术:多模感知、深度理解、多维表达和运动智能。
每一项技术,都和讯飞的平台和产品实现深度耦合,真正助力科大讯飞和开发者对AI未来的展望和愿景。
在过去的这一年里,科大讯飞的关键技术进展,围绕的就是如何去解决这四大问题。

多模感知

说到多模感知,这里面涉及的不只有语音的感知,还要有视觉、有眼神、有面部表情、有肢体语言、有环境的综合感知,包括味觉触觉等等。
举个例子,语音识别在真实的场景中面对的主要挑战是,能不能在高噪音场合下从多个人的讲话里识别出我们需要的信息。
就比如地铁站买票的场景,除了用户自己的声音外,周围人说的话也会被机器捕捉到。
那么,想要从嘈杂背景环境中分离干净人声,除了必须的语音识别技术外,其实还可以结合上图像识别技术,也就是针对嘴型的识别。
基于这个想法,科大讯飞研发出了一个可以将唇形和语音技术相融合的多模态语音交互系统,让语音识别在高噪音场下做到了实用。
不过,想要让多模感知达到更高的水准,就需要让其中融合的技术本身,也足够出色才行。
就拿图文识别来说,相比于较为简单的中英文识别,由于缺乏训练AI所需的学习数据,针对复杂公式的识别一直以来都是业界的难点。
而科大讯飞自从在去年取得突破之后,今年更是实现了在业界遥遥领先——
不仅是针对常用数学和化学公式的识别,就连有机化学这种非常复杂的手写公式,也能轻松解决。
想必在座的各位家长,以及正在搞科研或者写论文的研究者和开发者,肯定会非常喜欢这个功能。
除此之外,在手势识别上,科大讯飞已经实现了单摄像头的「凌空手写」识别。
以及,只要盯着看就能完成输入的「眼神打字」。
刘庆峰表示,这两个技术不仅仅是能够用在未来的虚拟世界中,在现实世界中对人类的帮助也是非常显而易见的。

深度理解

在深度理解领域中,讯飞让机器的阅读理解超过了人类平均水平,这是全球首次。
在斯坦福大学牵头的SQuAD2.0的比赛中,机器的表现已经超过了人类的平均水平。
而今年,科大讯飞又把AI的深度理解能力和认知能力提升到了全新的高度。
在最权威的知识推理比赛OpenBookQA上,科大讯飞的AI在单模型上在今年7月份已经首次超过人类水平,这标志着AI认知智能的重大突破。
而深度理解的进步,能够让我们更深入地触及教育的本质。
什么是教育的本质呢?爱因斯坦说过,当你把课本上的所有知识都忘记之后,剩下的东西才是教育的本质。
而现在,让人类回归教育的本质,可以在AI的帮助下完成。
首先,就是知识的学习,让孩子在用更少的时间学习更多的成果。
通过这个知识图谱,我们可以精准分析孩子对知识的掌握程度,进行个性化作业,分层作业。
这套系统已经有5万多所学校、1.3亿师生在使用了。数据表明,单点知识点的学习需要的训练量下降了58%,学习兴趣提升了29%,焦虑情绪下降了20%。
第二步,学会理解,这也是学科的核心素养。
从下面这个高考模拟题中就可以看出:现在的教育,越来越重视学科的综合素养。
而科大讯飞的知识点图谱和核心素养图谱,就能够拓展孩子的综合素养。
第三步,培养注意力、观察力、思维力。
科大讯飞已经跟北师大一起承担了中国脑计划中的一个重要环节,通过大型队列研究来解释儿童和青少年脑智发育的规律。
在他们研发的儿童脑智发育检测平台上,可以检测注意力、思维力、记忆力和空间力。
并且,科大讯飞还聚焦脑智发育中的注意力维度,研制了儿童注意力系列的训练课程。
前后测表明,参加完训练课程的儿童在注意力水平上,提升了37%。
而第四步,就是拥有健康的心理。
《中国国民心理健康发展报告》显示,我国青少年抑郁检出率24.6%,其中重度抑郁检出率7.4%。
而通过医学、心理学及AI技术的深度融合,则可有效地提升学生心理健康水平。
为此科大讯飞联合安定医院等构建了一个抑郁症的排查平台。
目前,该平台对抑郁症筛查的准确率已经达到91.2%。
科大讯飞以此在很多城市试点了减压星球,80%的孩子认可这个平台的心理评估结果。使用后,考试焦虑从34%下降到17%,普遍焦虑从80%下降到了60%多。
基于深度理解能力,科大讯飞的智医助理成为了全球到目前为止唯一通过了国家职业医师资格考试的机器人,累计在全国已经辅助诊疗了5.1亿人次。
可以看出,由于基层医生的眼界和能力所限,现在的误诊现象非常触目惊心。
对于基层开出来的不合理用药处方,智医助理提示了3800万人次,而这其中有52%是无适应症用药,也就是「头疼」却开了「医脚」的药。
根据柳叶刀的统计模型,现在全球在2019年就有100多万人直接死于抗生素的耐药性。而现在大量的无序用药就是用了抗生素的。
通过科大讯飞的努力,在去年一年中把辅助诊断准确率从95%进一步提升了97%。
相信以后,AI可以打造每一个医生的诊疗助理,给每个人提供健康助手,规模化地服务于健康中国和幸福中国的未来。

多维表达

在多维表达方面,科大讯飞的进展也十分让人印象深刻。
比如,在AI收到这张图片后,就会自动回答:图片内容是一只小猫在花的旁边玩耍。然后还能答出小猫的种类、小猫旁边是什么花。
你还可以要求AI用比喻的手法描述一下这张图片,AI会回答:一只小猫在花的旁边玩耍,他的眼睛像两颗黑宝石,闪闪发亮。
最厉害的地方来了——让AI根据图片写一首诗。
AI当即生成一首精彩的小诗——
这样文图搭配,瞬间就生成一张明信片了。
这么厉害的认知能力和表达对话能力,可以用在各种地方。
比如赋能元宇宙里的虚拟人物,还能为机器狗、机器人进入每一个家庭提供基本的支撑。
除了基于图片的多维表达,还有基于文字去理解的。
比如,给AI发这样一段话,它就会对这段文字给出解释,还会根据文字内容随即生成一幅画。
「这段话描述的是一棵枝繁叶茂的大榕树。这是我根据这段文字创作的画。」
如果你请它朗诵一下,它还能清晰地逐字朗诵出来。
而且还可以要求换人,比如说「用一位亲切的女老师来读」,然后AI就会变成一个女老师的形象和口音。
有了这样强大的多维表达功能,AI读朱自清的散文时,就可以生成朱自清的形象;读林徽因的散文时,就可以生成林徽因的形象。
这样,根据文章的进度,随时随地都可以配上AI生成的画面,既生动又有趣。
而这样的交互,会让我们在元宇宙里有更自然便捷的沉浸式体验。

运动智能

刚才我们讲到了元宇宙中间的赋能,而机器人也需要运动智能的帮助,虚拟跟现实结合,就非常需要运动的加持。
而讯飞的运动机器人,强大的运动能力就让人眼前一亮。
看,下面这个轮式机器人拿到球后,在头上灵活地盘了起来——
简直盘出了花式轮滑的感觉。
而这位选手在运动算法的强大加持下,又能爬坡又能下楼,各种复杂地形都能轻松hold住。
更厉害的是,挨一脚踹,被偷袭一下,依然稳如磐石。
接下来,让我们来看看机器狗battle。
优秀的业界选手小白,和用算法加持的小黑,谁会获胜?
果然,答案没有悬念。
虽然开头暂时落后,但小黑随后势如破竹,率先到达终点,一举夺魁。
此外,小黑也根本不会受到地形的限制,在沙地、草地上都可以随意地闪转腾挪,so easy。
赢得比赛的小黑,正在得意地走路,结果一不留神被撞到了!会摔吗?
不,你期待的画面并没有发生。即使被撞到,小黑也依然可以通过调节动作,保持住平衡。
真的是爬楼抗撞,四平八稳,稳如老狗。
在得到如此强大的加持后,机器狗当然不会只用来运动。
比如,搭载了超声定位模块的机器狗,能以「迅雷不及掩耳」之势发现管道泄露,并在检测出有毒气体之后,及时发出预警。
在多模交互、深度理解、运动控制、硬件模组的加持下,科大讯飞的机器狗也拥有了更实时的地形自适应能力、更快速的全局定位搜索能力、更精确的地图构建能力和更高性能的AI运动控制。
于是,经过优化之后的运动性能,也能更好地满足实际应用的需要,让机器狗轻松拿捏户外巡逻、工业巡检等多个场景。
百变虚拟人:想在家里游黄山,安排
正是基于前文提到的「多维表达」的技术方向,讯飞将自家的「虚拟人平台」进行了全方位迭代更新。
早在2021年1024开发者节上,讯飞就重磅发布了虚拟人交互平台1.0。
2022年初,讯飞「超脑2030计划」正式启动,多维表达和虚拟人平台,作为这个宏伟规划的关键,在技术线和产品线上均发挥着不可替代的作用。
目前,讯飞已经形成了涵盖虚拟主播、虚拟客服、虚拟医生、虚拟偶像、虚拟员工等专业虚拟人的大家族,在媒体、金融、文旅、文娱、教育等行业应用落地。
今年全新升级的虚拟人交互平台,在多模感知、多维表达、情感贯穿、自主定制等方面有新突破。
更厉害的是,这些虚拟人不仅提供了丰富的捏脸选项,而且还可以自定义声音和情感!
目前,讯飞面向元宇宙方向也提供了XR虚拟人方案,在虚实融合场景下,带来更自然的沉浸式交互体验。
无论是带你游虚拟黄山,还是为你讲解博物馆中的虚拟藏品,有什么感兴趣的,你想要的虚拟人,永远在身边。
刘庆峰表示,讯飞的AI展馆可以变成一个所有AI设备都能自然体验的沉浸式场景,再也不用各种各样的工具操作了。
在虚拟世界中,讯飞已经打造了一个丰富的虚拟人家族,这正是「超脑2030」三步计划中的第一步。
机器人大脑:运动和交互能力更强了
还记得前文的那条机器狗吗?
它能够如此行走如风,正是得益于「机器人超脑平台」的加持。
而这也是讯飞「超脑2030计划」的另一块重要「拼图」。
通过端侧的软硬一体控制器和云上的机器人交互大脑,能够极大提升机器人的运动能力和人机交互能力,即使是在复杂的场景下。
并且,通过超脑平台,机器人能够具备多模感知AI能力,未来还可以持续提升自主进化学习能力。
此外,讯飞的机器人超脑平台,构建了一个非常开放的生态,为广大机器人开发者提供了非常方便的一站式解决方案。
讯飞:拥抱数字经济大未来
回顾2021年,全球数字经济蓬勃发展,47个国家的数字经济增长15.6%,占GDP比重达到了45.0%。
目前,在全球新冠疫情持续严峻的形势下,数字经济已经成为全球复苏的关键动力,而人工智能正是数字经济发展的核心引擎,借助这个引擎,必将带动更多的新兴产业一起崛起、壮大。
而真正的任何一个新兴产业的发展,最核心不是概念,不是纯粹的技术创新,而是洞察到真正未来的社会发展的刚需。
只有看准刚需,解决刚需,以价值创造为根本来做产业,做创业,路才会越走越宽,以「刚需加代差」形成中国人工智能产业在全球的群体优势。
讯飞超脑2030计划的终极目标,正是未来整个的社会事业工业发展和人类的刚性需求,我们需要拥抱未来。
刘庆峰表示,未来无论是科大讯飞、开发者,还是Z时代的各位伙伴,不仅要认清未来,更重要的是去参与到这个未来的大潮中去。
因为洞察未来最好的方式,就是创造未来和定义未来。
一个虚拟世界和现实世界深层融合的未来。
一个数字经济和实体经济双向奔赴的未来。
一个从人机协同向人机共生深度进化的未来。
继续阅读
阅读原文