被罗永浩看中后一战成名，小米高通投资！这家AI创企牛在哪？

TWS赛道的新机会：一家AI算法创企靠它赋能近亿台智能终端产品。

作者 | 韦世玮

编辑 | 漠影

夏至将至，和气温一样持续攀升的还有TWS（真无线蓝牙立体声）耳机市场的热度。

据业内机构统计，截至5月12日，今年已有25款品牌TWS耳机推出。仅在刚刚过去的5月，OPPO、vivo、华为、努比亚、小度等玩家也相继推出TWS耳机新品，进一步加剧市场混战。其中，前三位玩家的TWS耳机均支持通话降噪。

与苹果AirPods带火的主动降噪不同，通话降噪主要针对耳机中的麦克风，通过算法使麦克风收音更加纯粹，而主动降噪主要针对扬声器，算法围绕用户“听”的过程进行处理。

随着通话降噪逐渐成为当下各路玩家PK的主要功能之一，也出现了许多公司竞相押注通话降噪赛道，各类解决方案百花齐放。

成立于2017年2月的大象声科，则是专注AI智能听觉技术赛道上一家颇具特色的企业，主要基于机器听觉AI算法开发智能语音增强和语音交互解决方案。

近期，智东西也有机会与大象声科的核心团队人员交流，在了解他们创业故事、核心技术和发展路径的过程中，我们也看到了当下通话降噪技术领域的发展现状。

实际上，大象声科的AI通话降噪算法最初被锤子科技创始人罗永浩看中，应用在了坚果手机上，随即一战成名，业务逐渐向智能手机、PC、车载声场控制、智能家居、助听器等多个领域拓展。同时，他们背后还有小米、高通等企业的投资。

今年4月，大象声科还官宣了一笔超亿元人民币的B轮融资，由兰璞资本领投，佳康科技基金、紫金港资本跟投。这是它成立四年多以来公开的第4笔融资。

下面是我和大象声科战略总监的交流干货：

▲大象声科公司团队合影

01.

硬核创始团队加持，用AI拓展人类听觉感知

“与机器视觉相比，现在机器在听这件事情上并不够智能。”大象声科战略总监谈到，大象声科成立的初衷就是希望通过机器听觉技术，赋予机器像人一样的听力，比如说能解决经典的鸡尾酒会问题。

何为鸡尾酒会问题？简单来说，当许多人同在一个场合内说话时，人类能通过注意力集中在某一个人的谈话中，而忽略背景的其他谈话或噪音，这也是人类听觉系统的神奇之处。

但对机器来说，鸡尾酒会问题是一个极其大的挑战。因为声波的重叠与互相干扰，让机器很难在信号采集完毕后对它们进行有效的分离处理，机器难以像人一样有选择性地去听某一部分声音。

这就是大象声科想利用AI技术解决的问题，从另一个角度看，就是将AI（人工智能）用于人类听觉感知范围的拓展，“这也是我们创始人们一直希望实现的目标。”战略总监说。

青萍始于微末。实际上，大象声科如今成绩与其创始团队的硬核实力息息相关。

大象声科董事长兼CEO苗健彰是位80后的连续创业者，拥有西安交大通信与信息工程学士及加拿大UBC软件工程硕士学位，曾在温哥华RBC及IBM等全球知名企业就职。尽管一路顺风顺水地走来，但苗健彰心底里仍保留着创业成事的梦想。

终于在2014年，苗健彰选择了辞职下海，开始在温哥华当地创办科技公司。此时适逢AI技术在北美蓬勃发展，他敏锐地发现，在语音前端信号处理的技术链上游环节，存在亟待深入研发的技术难题。换言之，就是存在商业机会。

经过对市场和行业的广泛调研与摸底，苗健彰更坚定了从事语音处理AI技术研发与落地的方向和决心。而他这股创业热忱下对技术创新及应用落地的执着，也打动了时任俄亥俄州立大学终身教授，在语音人工智能领域处于全球领先地位的顶级科学家——汪德亮教授。

于是在2016年，汪教授成功加盟创业团队任首席科学家，并引荐了其实验室的访问学者——时任内蒙古大学教授的张学良。一直以来，张学良教授在CASA和DNN等技术研究与落地实施等领域有深厚造诣，随后他也以CTO的身份成功加盟。

随着两位行业大咖的加盟，并基于创始团队对国内AI市场蓝海的判断与未来蓬勃发展的看好，2017年2月，大象声科在深圳正式注册成立。

▲从左至右分别为大象声科创始人、CEO苗健彰，大象声科联合创始人、首席科学家汪德亮，大象声科联合创始人、CTO张学良

目前除了深圳总部外，大象声科在南京、上海、台湾等地均有分部，整体团队规模约70人，核心研发团队占比超60%。

基于学术界知名学者的深厚技术经验和研究理论加持，大象声科也开启了机器学习语音赛道的新航线。

02.

以AI通话降噪为核心的技术城池

技术是立足之本。在公司成立之初，大象声科就瞄准前端信号处理赛道，率先将深度学习技术应用到语音增强中。

“在此之前，前端信号处理领域较为传统的主流方案是基于稳态噪声假设下，利用滤波器将噪音信号过滤掉，留下一部分相对清晰的语音信号。”战略总监解释，但这降噪效果非常有限，因为真实场景中存在的非稳态噪音如马路上的噪音、咖啡厅内噪音和地铁中的噪音等是不符合稳态假设的。

而以汪德亮教授的CASA研究为导向的AI流派，则利用AI将人声与非人声进行区分，从各类复杂的非稳态环境噪音中分离与提取出清晰的人声，从而突破了传统语音信号处理的瓶颈。

在这一过程中，降噪的技术难题从最初的单纯过滤问题变成了一个分类问题。也正是基于这一差异化技术路径，大象声科逐渐构筑起了自己的技术壁垒。

算法方面，目前大象声科核心声学算法覆盖智能降噪、回声消除、混响抑制、语音唤醒、声源定位、波束形成、声纹识别、DHS深度啸叫抑制等方面，为客户提供一系列面向智能手机、蓝牙耳机、PC、车载、助听器等领域的智能语音增强和语音交互解决方案。

“我们的底层技术是通过AI去做语音信号处理，而通话降噪是我们技术落地的基础之一。”战略总监告诉智东西，面向不同的细分赛道和声学结构，大象声科还相应发布了一些列语音增强解决方案。

例如，大象声科针对蓝牙耳机推出的Vocplus Headphone解决方案，基于深度学习和计算听觉场景分析理论而研发，能够实时分离人声和背景噪声并提取清晰人声，大大提升用户在地铁、商场、马路等各类噪声环境下的通话体验。目前，该方案还拥有Al单麦、AI双麦、AI三麦和AI单麦骨传融合版本。

“整体来看，得益于汪教授二三十年来的研究经验，我们的技术储备非常多。”战略总监提到，包括几年后的技术路径，大象声科都有非常清晰的规划，并较为清楚地看到技术的发展方向，以此不断拓展公司的技术节点与业务布局。

▲大象声科公司办公区

03.

创业之初的关键一役，

业务拓展要啃最硬的骨头

尽管拥有一支硬核的创始团队以及不少前沿技术经验，大象声科在成立之初还是遇到了不少难题，融资就是公司起步的其中一道难关。

2018年1月，当大象声科拿到由紫金港资本、挚金资本及狗尾草智能投资的天使轮融资后，如何推动技术方案落地是摆在他们面前的一大难题。

“当时公司只是几个人组成的小团队，在没有大客户背书的情况下，我们是很难直接被小米、华为等手机大厂商认可的。”战略总监回忆道，因此最初大象声科在寻求技术落地方面屡屡碰壁。

对永远有准备的新玩家来说，机会也许会迟到，但从不会缺席。恰逢当时的锤子科技正紧锣密鼓地进行新产品研发，“相对而言，老罗是一个喜欢尝试新事物的人。”战略总监说，因此锤子科技也率先尝试将大象声科的Vocplus Telecom智能通话降噪方案用在坚果手机上。

2018年4月，随着大象声科智能通话降噪方案在坚果手机3上量产，也让小米、高通等厂商陆续看到了大象声科的潜力与价值，客户和融资机会随之而来，2018年也成为公司扬帆起航的重要一年。

2018年7月和11月，大象声科相继完成由小米科技和高通风投投资的数千万人民币Pre-A轮融资，以及元禾原点、凯泰资本、猎豹移动、理则股权投资管理投资的A轮融资。

同时在这一年，大象声科的Vocplus Gaming上行方案还成功在努比亚红魔Mars量产，并与高通联合展示了基于高通骁龙855芯片的AI通话降噪方案。

但手机并不是大象声科AI通话降噪技术唯一的落地方向，从2019年起，大象声科开始朝着更广阔的业务边界拓展。同年12月，其Vocplus Headphone方案首次在OPPO Enco Q1无线降噪耳机成功量产，正式打开耳机业务。

紧接着在2020年3月，大象声科正式发布Vocplus PC方案，并成为首个在Intel GNA上运行的第三方语音方案商。这意味着，大象声科的AI语音降噪算法技术再一次得到广泛落地的机会，包括联想、惠普、戴尔等计算机公司，都是其重要的已有或潜在客户。

实际上，2020年对大象声科而言也是一个重要的发展节点。

从6月其单麦克风骨传导AI降噪算法落地漫步者TWS耳机，到9月首次打入华为供应链，到年底联想首款搭载其算法的PC在海外正式量产发布，再到2021年初同多家造车新势力深度合作，大象声科一路狂飙突进，AI降噪算法技术实现多点落地开花。

如今，大象声科的“朋友圈”已覆盖高通、英特尔、Arm、恒玄等国内外知名芯片厂商，以及华为、小米、OPPO、vivo、联想、摩托罗拉等品牌企业。

不过，从手机到耳机再拓展至PC，大象声科一步步切入市场的思考逻辑是怎样的呢？

“我们的思路是要先啃最硬的骨头，但这并不代表我们要死磕。”战略总监谈到，一方面，最难的方向也存在较大的市场空间，对公司发展来说是好事情；另一方面，从较高的难点开始起步，也能为公司带来更广阔的技术空间。

例如在TWS耳机兴起之初，大象声科认为AI降噪算法落地耳机的其中一个难点在于，AI算法本身的尺寸较大，不仅需要经过大量数据训练以形成神经网络，还对算力有较高需求。但耳机的存储空间比手机小得多，意味着它能承载的算法尺寸也更小。

因此，如何将大尺寸算法“裁剪”成能放进耳机中的小尺寸算法，也是一个AI降噪算法落地耳机领域的一块硬骨头。

正是基于这一思路，大象声科的业务不断成熟拓展。自成立至今，大象声科Vocplus AI智能语音增强与语音交互算法已赋能近亿台智能终端产品。

04.

海外市场是重要业务方向，

加速实现人声之间分离

现阶段，智能手机、蓝牙耳机、PC领域和智能车载仍是大象声科的主要落地方向，“但每一个赛道对我们来说都十分重要。”战略总监谈到，从业务层面看，未来大象声科也会逐渐朝AR/VR、IoT、穿戴设备以及助听器等对人机交互需求高的场景进一步延伸，持续拓展新平台。

不仅如此，大象声科还将进一步朝海外市场拓展。“因为我们公司团队本就拥有较为国际化的传统基因。”他解释，同时包括摩托罗拉、联想等在内的国际化品牌客户，也为大象声科的海外业务拓展提供了经验，这也将是公司接下来的业务发展方向之一。

而在技术层面，大象声科仍将专注于AI智能听觉技术的研发与应用，加速在移动通信、远程会议、蓝牙耳机、助听器、智能家居及车载声场控制等领域的算法及专用芯片的研发。

▲深度学习声音分离技术的流程（图源：IEEE Spectrum）

“我们要把基于AI做语音信号处理这件事情做到极致。”战略总监说。

在他看来，现阶段机器在听觉方面仍然很“愚蠢”，这意味着也有非常大的空间和应用场景，可以用AI去做相关的语音信号处理工作。

“现在机器视觉领域的技术已经很聪明了，不过都主要应用在门禁、刷脸支付等场景，相对都是B端领域，但只要C端市场不爆发，机器视觉技术就很难实现井喷爆发。”战略总监解释，相比之下，当下的耳机等消费电子产品的火热，也给人与机器听觉的交互提供了更多的机会。

“如果AI技术能够改变人与机器在语音交互方面的功能，这不仅能推动机器听觉技术的成熟落地，也能更快地市场发展带来更大的经济效益。”他说。

05.

结语：机器听觉领域发展仍道阻路长

在智东西与大象声科战略总监的深入交流中，我们也看到一幅描绘着AI语音技术创新落地的商业蓝图，正在我们面前徐徐铺开。

尽管与机器视觉技术相比，机器听觉技术仍显得较为年轻，但在其大量的细分赛道之下，许多玩家争相入局，各类AI语音解决方案百花齐放，也为机器听觉技术的发展注入了源源不断的生命力。

相信在未来，这条技术长河中的每位玩家都能找到属于自己的位置，共同推动机器听觉领域的应用爆发、技术繁荣与发展。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

继续阅读

阅读原文