机器学习以及自然语言处理技术的进步,开启了基于先进AI技术的人机语音交互,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。
AI语音交互正在进入每个人的日常生活,娱乐、工作、社交各个场景都已经出现了“它”的身影。随着5G翩然而至,高带宽、低时延、广连接“三大特性”将进一步突破AI语音瓶颈,或许会给出更丰富的应用场景和更完善的解决方案。

本期「追光者-5G引领数字化」栏目,我们邀请到标贝科技创始人兼CEO刘博,共同走进智能语音的世界,一探5G时代的AI语音交互,将如何变化升级?哪些AI语音应用场景将成为下一个风口?

刘博
标贝科技创始人兼CEO
智能语音如何发展至今?
回顾智能语音的发展历程,大致分为五个阶段。
第一个阶段是萌芽期,在1952年,贝尔实验室研制出首个语音识别系统Audry,但当时的语音识别系统非常粗糙,基本上停留在实验室阶段。
第二个阶段,在1984年,语音技术取得了真正的突破。IBM发布一款大词汇量识别系统,涵盖5000多个词汇,识别率达到95%。除此之外,美国卡内基梅隆大学开发出一套名叫SPHINX的语音识别引擎,为后期语音识别技术走向商业化起到了重要的推动作用。
第三个阶段,我们将其定义为产业化阶段。在1997年,第一款语音听写产品诞生了。2002年,美国启动“全球自主语音”GALE项目,研发实时翻译印刷品、网页、新闻及电视广播技术。2009年,微软发布的Win7也集成了语音识别的功能。
在第四个阶段,语音技术迎来了快速应用。苹果推出首个语音助手Siri,谷歌相继发布了首个手机语音搜素引擎Google Now。在技术具体落地的同时也解决了一些实际问题,比如2015年,我国诞生了首个可打断纠错的语音系统,极大提升了语音交互体验,对后续的应用化落地起到很大作用。
在第五个阶段,我认为是语音产品的爆发期。国内我们能看到像腾讯、百度、小米、阿里等互联网大厂,都推出了自家的智能语音产品。所以我相信,随着AI语音识别应用领域的不断扩展,我们的技术将获得更多普及。
与4G相比,5G将会对AI语音交互有哪些影响?
4G连接了人与人,更强调以“人”为核心的交互过程。由于5G对边缘计算和网络切片能力的提升,未来会有更多设备接入5G网络,因此AI语音交互将经历从“人”到“人和设备”的核心转变。那么5G将在哪些方面提升AI语音交互技术呢?
首先,5G提升语音采样率,打造更接近人声的合成声音
当我们在打电话沟通交流时,经常会产生很多问题。比如在电话中会发现对方的声音可能不太友好,抑或是表达的意思不够清晰。这也是为什么人们更喜欢面对面沟通重要的事情。
在4G的时候,语音采样率的指标是16K,随着5G不断成熟应用,语音采样率将会提升至44K。两者本质上是信息密度传输的区别。随着采样率的提升,语音将承载的交流信息会更强,我们可以更多地感受到对方表达的意思和温度。同时,可以获取更保真、音质更好的的效果,所以我们期待借助5G技术,打造更接近人声效果的合成语音。
其次,5G提升泛在线设备能力,覆盖连接更多设备,延展AI语音交互场景

尽管当前的4G网络每平方公里可以容纳数千台设备,但同样范围内5G可以为百万台设备提供高速网络连接。因此在5G时代,泛在线的能力将得到极大提升,当设备接入5G网络体系之后,更多应用将融进场景,形成交互的多元化应用。随着交互形态和交互能力提升,用户的交互意愿将达到质的变化。
据艾瑞咨询发布《2020中国智能物联网AloT白皮书》显示,至2025年,65%以上中国家庭拥有AI管家包括智能音箱、智能机器人、智能面板等形态的产品,且一户家庭可以拥有10台以上具备AI感知能力的设备,从而形成智能家居交互方式无感化。不仅仅是家居生活,未来的AI语音交互将转向多场景切换、多交互形式,最终形成跨终端的无缝体验。
再者,5G丰富AI语音交互形式,向“千人千面”转型
4G时代,由于带宽压力和计算能力限制,很多人机交互还停留在单一的语音对话形式,比如人机智能问答。但随着5G基础建设的不断提升,人机交互将融入更多的AI技术,包括手势、人脸、视觉、语音等,形成多维度、多层次立体化的交互体系。
记得之前很多人问我,语音是不是独立存在的单个场景或板块?其实不然。语音作为交互能力的基础,通过整合更多的场景形态和先进技术,打造沉浸式的交互体验。在未来,我们可能将更多的技术融入相应的设备里,形成多元化的产品体系。由于受限于4G速度,以前没办法真正做到语音交互的个性化、定制化、差异化,如今基于5G的特性,可以增加个性化定制的交互场景,实现“千人千面”的体验。
AI语音技术应用在哪些重要的5G场景?
5G+融媒体场景

现在,视频领域正成为大厂们竞相追逐的热点,因为内容创造对于任何厂家而言都是瓶颈。但我们在做制作内容的时候,通过5G与AI语音技术的结合,将大大提高产出效率。
AI语音不仅能够推动数字技术的内容创作,还提高了媒体制作的效率。比如融媒体超高清视频的制作主要分成三个部分:采集回传、视频素材的云端制作、最后形成高清视频节目播出。5G+AI语音技术将整个“采-编-传”的过程音频化、高清化、云端化,极大解放了内容创作者的双手。
来源:IMT-2020(5G)推进组 5G新媒体行业白皮书
5G+泛娱乐场景
当AI语音交互技术应用在泛娱乐场景时,比如云游戏、高清视频、VR、AR直播等等,将带来更清晰的交互流程和更优质的交互体验,实现定制化、智能化和场景化的高度渗透与融合。我观察到云游戏的体验形式正在发生本质变化,市面上有部分厂商已经实现了一些智能化体验,游戏中的NPC(非玩家角色)可以直接跟用户进行对话和交流。
5G+智慧生活
5G重构设备的连接方式,而AI语音让设备自身、设备与设备之间更懂人,实现个性化的人机交互体验,从万物连接走向万物智能。
据相关白皮书指出,受益于城市端AIoT业务的规模化落地及边缘计算的初步普及,2019年中国AIoT市场规模突破3000亿大关,直指4000亿量级。由于AIoT在落地过程中需要重构传统产业价值链,未来几年将会迎来较快的发展节奏,包括智能家居、车联网、无人驾驶、智慧医疗等领域都将与AI语音交互紧密结合,从实验室专有领域进入寻常百姓的生活。
随着5G与AI语音交互的不断融合,语音技术与场景结合度更加紧密,个性化语音交互是必然趋势。我们希望把技术、情感与用户串联一起,将AI语音技术应用到更多场景中,带来“声入人心”的语音交互体验。
(扫描二维码,观看直播回放)
关于腾讯5G生态计划
依托腾讯AI Lab、Robotics X、音视频实验室、未来网络实验室、网络平台部、腾讯START云游戏平台的产品、技术和网络能力,联合运营商、终端品牌、设备厂商等合作伙伴的强大资源,背靠腾讯丰富的多媒体内容和应用场景,通过技术能力、用户流量、渠道资源、品牌资本等,携手运营商、5G应用开发者,探索新应用、新内容和新场景,协同腾讯5G城市计划,共创5G新生态。
继续阅读
阅读原文