“和大多数人‘以云计算为中心,控制所有设备的智能功能和服务’的想法不一样,启英泰伦从一开始,就把离线语音AI芯片作为公司的创业方向。”该公司创始人何云鹏日前告诉记者。
成都启英泰伦科技有限公司创始人,
首席执行官何云鹏
“因为只有这样做,才让亿万的设备具备真正的智能,让亿万用户能够自主独立的用得上和用得起人工智能带来的智能服务和便利。人们也不会因为断网,不会因为没交年费而失去对设备的使用和控制。”何云鹏进一步指出。
在这样的初衷推动下,自2015年成立至今,启英泰伦已经和5000 多客户建立了合作关系,拥有了10000 多平台开发者,和10万多在校学员。目前,离线语音产品装机量已经达到 2000 万年装机量,并正快速向上亿年装机量前进。
能有这样的“战绩”,是启英泰伦团队过去夜以继日地努力,并迭代三代芯片和平台所取得的成果。
七年三代芯片
作为人工智能领域主要分支之一,语音识别智能是行业落地最早的AI应用之一,早在2010年便开始得到发展。后来,以神经网络为代表的AI技术则进一步提升了智能语音识别的效果,并逐步开始将其推向各个领域并得到应用。
但即使如此,在何云鹏看来,语音识别芯片和算法研发面临众多现实难以克服的难题:首先就是各种应用场景复杂的噪声(比如厨电的烟机噪声、炒菜声;客厅的电视声、音乐声;在推广销售环节我们还会遇到会场的多人声、卖场的高音喇叭的嘈杂背景噪声等);其次,人类语言种类繁多,如果考虑到各地方言口音,几乎是没有办法通过大数据训练模型来满足所有地域口音的识别;最后,人类语言的表达非常丰富,要想在设备端侧实现对任意语言表达的意图理解,也是一件艰难巨大的任务。
“不仅如此,电子设备发展要求往往需要在价格不变的情况具备越来越多的功能和越来越高的性能,或者在同等功能性能情况下,成本不断降低。所以这些,对这个产业的研发人员而言,形成巨大的挑战。为解决这些困难,启英泰伦的团队迎接所有挑战,在算法攻关和芯片研发两个方面同时发力,埋头攻克一个又一个业内难题。”何云鹏接着说。
七年三代芯片就是启英泰伦针对这些问题交出的一份答卷,其拥有的自主知识产权脑神经网络处理单元(BNPU)就是其芯片的核心。
“七年以来,我们大的技术平台BNPU(脑神经网络处理器)迭代了三次,从 BNPU1.0,BNPU2.0,到今天的 BNPU3.0 版本。我们的芯片迭代了 3 个大代,和 3 个小代(也称半代),总计六次。其中半代是在正数代基础上 BNPU 平台不变,通过功能精简达到 30%方案成本的下降。”何云鹏解析说。
他同时指出,每一代 BNPU 的问世,都是离线语音芯片和算法的一次突破和语音应用的助推。据介绍,启英泰伦的BNPU 一代实现的是端侧语音识别,是行业首款集成神经网络处理器(即一代 BNPU)的语音 AI 芯片,代表着离线语音产业应用的兴起;第二代系列芯片 CI1102/CI1103及 CI1122 芯片,集成了 2 代 BNPU,不仅实现了离线语音识别功能,还能实现离线的声纹识别和命令词自学习等个性化的功能。
何云鹏表示,启英泰伦这 5 颗芯片的迭代不仅是上述算法性能功能不断提升,集成度也在不断增加。例如在 2 代系列集成进了 Audio CODEC,Flash 等单元,以及双麦阵增强处理能力,因此方案成本也是快速下降。“最初的一代 50 到 90 元(CI1006),1.5 代为 30 到 40 元(CI1102),2 代芯片系列 15 到 25元,2.5 代则降低到 10 元到 15 元之间。”何云鹏举例说。他同时指出,在这些芯片迭代过程中,启英泰伦产品的算法技术也在不断进步。如在正常安静家居环境下,识别准确率达到了 98%以上,对于 65dB 左右中强环境噪声下也能有较好的识别效果。
除此以外,启英泰伦在产品的应用上也与时俱进。如推出可以根据不同人的声纹实现基于用户个性喜好的功能配置;发布有专利技术的离线命令词自学习,使得可以在无需联网的情况下,用户可以简单的教会设备识别自定义的语言,从而能从根本上解决不同区域人们的方言口音识别问题。如公司的第二代芯片离线命令词自学习技术可以实现在轻度噪声下的良好识别。
虽然在启英泰伦等企业的推动下,离线AI语音技术发展神速,但正如何云鹏所说,整个行业仍然存在最后几个难以克服的问题:第一是离线语音仍然是以命令词为主,对于命令词较少的应用倒不是问题,对于命令词多的应用,会存在用户难以记词的问题;第二是电视新闻、多人声环境以及噪声强度达到 75DB以上的复杂强噪声环境的识别;第三离线命令词自学习的效果离大数据训练模型效果仍然存在明显差距,使得方言问题并没有得到彻底解决。
针对这个现状,启英泰伦潜心研发了第3代BNPU,并将其应用于公司第 3代两系列的芯片上:一大系列是 3 代智能语音 MCU13 系列。一大系列是智能语音 IOT 23 系列。
两大突破,三大特点
“除继承第二代的语音识别外,第3代BNPU还支持了基于深度学习的降噪技术(深度降噪),人声分离技术(深度分离),命令词自学习2.0版本技术,以及行业首次突破性的离线NLP技术。”何云鹏在介绍公司第三代产品的时候说。
据介绍,启英泰伦在新一代产品实现了两大核心技术突破,一是增加了离线自然语言语义处理,支持离线NLP;二是增加双麦深度人声分离技术,无需记住任何命令词,同时具备识别能力和理解能力,支持用户以自然的方式随心和设备交互。
首先看行业首次突破性的离线NLP方面。
在之前,业界普遍认为只有云端才能实现NLP,但启英泰伦最新的技术已经可以采用端侧智能语音芯片实现NLP,将语音处理放在端侧,既保障了用户的体验感,又能降低云端搭建和运营成本,降低网络带宽消耗,也能提升用户使用的安全性。而为了帮助下游客户实现敏捷开发、快速落地的目标,启英泰伦还推出了语音AI平台。该平台支持10000用户同时开发,即时生成NLP模型,提供更自然的语音交互能力。
其次,从启英泰伦的演示我们可以看到,通过芯片的深度人声分离技术,语音模块仍然可以良好识别到目标人声。这标志着现在的语音设备可以适应几乎所有的应用场景,也包括推广环节的嘈杂人声场景。
至于上文谈到的 2.0 版本命令词自学习技术。据何云鹏所说,该技术对不管自然噪声,音乐噪声和电视噪声都具备良好的适应能力,在 60 到 65 分贝噪声条件下依然具备良好的识别表现,这已经非常接近大数据训练模型的效果,其效果已经明显的与跟随我们的同行拉开了差距。
“可以说该技术终于从功能和性能上彻底解决了方言口音的问题。该技术可以支持的词条数,可以多达 50 多条。我们的合作方甚至可以利用这个技术去开发各种小语种的识别应用。”何云鹏告诉记者。
基于这些突破,启英泰伦推出了具备算力更高、高度集成和算法新高三大特点的新一代芯片。
从芯片算力来看,CI130X系列芯片内置 BNPU 3.0 和支持 DSP 指令扩展的 RISC CPU 两大内核,主频高达 240MHz,并具有 640KB 系统 SRAM。这就使其不但拥有更灵活的计算性能、还具备更强的可编程性,支持高并行向量运算。
来到芯片集成度方面,CI130X系列芯片集成了 Audio Codec 的模拟 MIC 接口,数字 PDM 麦克的DMIC 接口,通用的 ADC以及 MCU 常见的串口,PWM,GPIO 等接口。此外,芯片还还进一步集成了 4 线 Nor Flash, 3 路 LDO 的 PMU,还有高精度的 RC 振荡器等。大大简化了开发者的设计。
最后,在算法性能方面,CI130X系列芯片支持几乎全部信号处理技术和识别技术。包括单麦自适应降噪,降混响,回声消除,DOA(语音定向),波束形成,盲源分离,语音活动检测等传统信号技术。
值得一提的是,为了满足不同的开发者的需求,启英泰伦还按照封装不同及 Flash 容量不同提供了 5 个型号,支持更为广泛的应用场景。其中 CI1301,1302,1303 这三个芯片是SSOP24 封装芯片,管脚完全兼容,拥有10 个高速 GPIO,对应 Flash 容量分别为 1MB,2MB 和 4MB;CI1306 采用的是QFN40 封装,拥有4MB Flash和 22 个GPIO;此外,还有采用SOP16封装的CI1312,该芯片具有2MB Flash和5 个高速 GPIO。
何云鹏表示,公司这系列芯片和技术方案问世后,能将困扰语音终端已久的最后几个难关攻克了,将语音识别应用带向了一个新高。
在发布语音芯片的同时,启英泰伦还推出了23 系列 AIOT 单芯片CI2305 和 CI2306 。
据介,23 系列芯片在语音的功能和性能完全与 13 系列相同,其主要增加集成了 WIFI 和 BLE部分。形成语音+WiFi+BLE 的三合一单芯片。其中CI2305 支持离线语音+IoT,而 CI2306,还支持将语音上传,实现离线语音+在线语音+IoT 功能。何云鹏指出,与一些 WiFi 公司推出的用纯软件方式在WiFi 芯片上跑语音算法的低成本方案相比,启英泰伦的 23 系列 AIOT 单芯片,能够实现优异的语音处理和识别表现,以及优良的 IoT 连接传输性能。
三个阶段战略
在与半导体行业观察等记者沟通的时候,何云鹏表示,启英泰伦的目标是创造出高度智慧的机器人,让机器人服务人。而要实现这一点的前提在于良好自然的人机交互。基于对人性本质需求与科技发展趋势的长远深入思考,启英泰伦制定了公司的长远的三个阶段的战略规划:
第一阶段,实现智能终端的功能控制的自然语言交互的普及。这个阶段的主要特点是让所有家庭都能用得起启英泰伦的语音 AI 芯片和方案,让大多的设备都能装得起,不管什么应用场景都能听得清,不管哪个地区什么语言都能听的懂。
第二阶段,实现智能终端智慧服务的机器人化;这个阶段的特点是让启英泰伦的器人芯片和方案能够让设备具备听觉,视觉,触觉,显示和对话等多感知交互能力,具备强大的理解,决策,响应能力,以及自我学习成长的能力。
第三阶段,实现每个人能够终生拥有的守护精灵。到了这个阶段,设备智能化高度普及,我们能够跨设备、跨时空,打通虚拟和现实壁障,抽取出每个用户专属的人格(或神格)的守护精灵。这个守护精灵将是人全方位的生活管家,健康安全卫士,百科知识导师,心灵陪伴
的知己朋友。
“今天我们正处于终端语音交互应用走向普及,多感知机器人技术芯片和技术研发积累的阶段。每个阶段都需要埋头苦干,需要多次迭代,这需要 5 到 10 年的坚持。”何云鹏说。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3121内容,欢迎关注。
推荐阅读
长江存储发布第四代闪存,200+时代已来临
半导体行业观察
半导体第一垂直媒体
实时 专业 原创 深度

识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
继续阅读
阅读原文