“能听见吗?”

“喂?”“喂?“喂?


这几句话可能是你远程会议里用的最多的词句。每当自己兴之所至侃侃而谈时,对方突然一句“听不清”就能打破自己所有的自信,而当对方表示能听清时,却又尴尬地忘了自己说到哪了。


不仅如此,“开会划水”一族还总会以听不见为由心安理得的神游。


本期《创业内幕》帮你们搬来救兵蛙声科技CEO辛鑫,我们将和他聊一聊如何用声学让你的办公方式更轻松。


Lily:

疫情期间很多朋友都在线上开过会,即使没在线上开过会,在线下开电话会也遇到过一个非常常见的场景,大家都在喊:“能听见吗?”这种情况是视频会议中非常大的困扰。今天我们要聊的这家公司做所的产品就是这个问题的杀手锏,它能让声音更清楚、视频更清晰,是云视频会议的最佳伴侣。让我们欢迎蛙声科技的创始人兼CEO,辛鑫。那么这么一个常见的会议中的痛点是如何被挖掘出来、并被解决的?辛总介绍一下自己和蛙声科技这家公司吧。


辛鑫:

我是个理工男,在美国待的时间比较长。本科毕业之后去美国读书,在美国西北大学读了计算机博士,那时候做的更多的是关于信号处理的研究。毕业之后在微软以及亚马逊做了大概6年的研发,从技术的研发岗位一直做到研发经理、研发总监,也带过很多团队。


大公司的特点就是非常大,人在里边待久了就会产生疑问:这个公司为什么需要这么多人?


我们以前经常开玩笑,对一些公司来说可能减掉95%的人员也没什么影响。这是一种自嘲,但也代表了一种状态:你做了很多工作,但很难产生积极的影响,久而久之就会产生一种疲劳感。这时候就会想着怎么出来做点自己想做的事情。最开始也没有完全想清楚自己要做啥,2018年我刚好30岁,经济上也没什么太多压力,就想总得出来干点什么,后来就回国开始做这个公司。


我想做的事情就三点:第一个是要做To B;第二个是要做跟声音相关的,以声音为切入点,看在什么场景下对声音的需求会比较明确;第三个它必须是个完整的产品,它不能是一个方案性的东西。前几年语音比较火的时候,很多人出来做方案。很多方案公司只在整个产品里面做了很小的一环,这有非常大的问题:你如果只是做产品里面一环,议价能力是非常差的,整个产品也不是你的,所以最终解决方案价值是非常小的。


所以结合这三点,最后我还是觉得在视频会议这个场景做到第一的可能性比较大。视频会议对声音要求很高。对于开会大家都有体验,声音是最重要的,而且越有钱的公司的要求越高。比如说亚马逊,我以前招人很可能平均年薪都在50万美金以上。当一个公司每个人都很值钱的时候,多花点钱去增加沟通效率,是有意义的。所以这是第一点,视频会议对音频视频要求还是很高的。第二,To B产品是有明确的付费方的,大家做生意是有预算来买购买产品的。第三,它是个独立的产品,你可以通过渠道去卖,你可以通过电商去卖,不论通过什么方式你都可以把它卖掉。所以得出的结果是只有视频会议这个场景符合这三个条件,后来就决定做这个方向。


这是一个已经存在的行业,它也经历了行业发展。但是做到今天还是有很多痛点。原来很多设备,比如像宝利通的设备,所有的优化围绕当年设备开展的。宝利通最开始做这个产品的时候是IP话机时代,是通过IP电话去接入的,它和电脑是没法连接的。但是现在Zoom发展起来以后,所有的交互变成了以电脑为中心,音视频硬件就从专业的终端变成了外设。现在每个人开会都用电脑,但是电脑的音视频能力并不够,甚至今年卖得最好的电脑都是不带摄像头的。很多人可能家里原来是没电脑的,但是今年,小孩要在家里上网课,就需要买个电脑,他就会买一个小电脑,但可能这个电脑喇叭的声音根本没法听。


对于很多海外用户来说,他们的国家发展得比较好,很多人从小是有音乐教育的,他对声音非常敏感。卖电脑的厂商希望电脑做得越便宜越好,最后的效果就是音频质量非常差,视频也非常差。但是客户又有跟对面做交互的需求,所以厂商又希望音视频做得比较好,那怎么解决?只能通过一个 USB音视频的外设去做。所以我们切入的第一个场景就是做USB外设。原来大家对外设的理解就是摄像头,做得很低端、很便宜,效果很差。但是我们不一样,我们就是要把USB外设做得非常高端,把原来几十万的用在思科这类设备上的音视频能力做成外设。我们从18年5月份成立,到2020年5月份,做了两代产品,最后的效果就是我们的小外设具备原来几十万的思科的设备的能力,这是我们做的一个比较大的创新。

 

Lily:

蛙声的设备多少钱一台?

 

辛鑫:

我们有不同种类的,我们的客单价从几千块到几万块钱都有,假如说需要非常高端的沉浸式体验,100万我们也能做到。想要什么服务我们都可以量身定做。如果是个中小型企业,对音视频有一点要求,我们有1000多块钱的产品并且效果也不错。如果是一个大公司,有更高级的要求,会议室有大的、小的、中型的,我们也有解决方案。我们有串联的麦克风,一个麦克风虽然是USB外设,但实际上它具备了终端的能力,可以多个串起来。100平米到200平米的会议室我们都能搞定。

 

Lily:

您刚才一直强调说要做一个清晰的、质量好的产品,怎么定义一个视频和音频的产品好?什么算好?对于一个企业级的产品什么样的算好?


辛鑫:

首先对于企业级产品。第一它必须是能用的,必须稳定,不能三天两头出问题。什么样的产品可以称为稳定?我们一个大客户字节跳动,全球有几千个会议室,他的员工成本很高,并且开会非常高频,基本上7×24小时在开会,它的设备是一直在使用中。所以需要这个设备一直在使用中而不出现问题。


这个要求其实非常高。这对绝大部分的产品来说其实都很难,这一点我们做到了。


第二是你要有相对较好的效果,能适配各种各样的环境。比如说字节跳动的会议室玻璃很多;有的会议室很大;还有很多很小的会议室。你要保证它在各种环境下效果是好的,所以需要音频算法能适配各种各样的环境,这是非常大的工作量。做的产品只在自己公司的会议室内有效果不难,但如果要在各种会议室调整一下就能有很好的效果就很难了。因为你需要让算法能够适配所有不同的环境。

做理工科的都知道上限和下限,如果适配非常差的环境,产品的性能可能就到下限了,那么如何保证设备在适应各种环境的前提下,质量的波动还比较小?我们花了很多精力去做这个事情。最后的效果就是在最差的环境下效果也不会太差,但是在最好的环境下效果就非常棒。

 

Lily:

您说的最差的环境是什么样?

 

辛鑫:

我举几个例子:比如三面都是玻璃,一说话都能听到回声的;或者地面全是地砖,稍微动一下就有“啪啪”的声音;或者旁边就是另外一个会议室,隔音不好旁边的声音会传过来。所以我们的产品需要能在所有的环境里面找到一个最优,或者次优的状态。

 

Lily:

办公室环境这种影响会非常大吗?比如说有地板砖,如果用蛙声和不用蛙声有什么区别?能不能给我举个例子?

 

辛鑫:

如果用一些比较山寨的产品,在这种环境下声音是完全被淹没在混响里边的,你听不清。人在跟别人聊天的时候,假如说不太能听得清对方在讲什么,大脑就需要用很多注意力去分解,去理解对方讲了什么。


听不清楚,花了百分之七八十的精力去听对方在说什么,最后开完会非常累。公司花几百万雇个员工,开几个会开得就很累了,一天下来也没什么产出了。所以音视频会议质量好的话,对于远程交互、提高员工效率是非常有好处的。


以前像Facebook、领英这些欧美大公司都会花几十万上百万买思科那种非常贵的设备,就是这个原因。你能算出来花这个钱能够有多少产出,这笔账算得过来。所以越有钱的公司它会买越好的东西。员工效率越高,就能给公司赚更多的钱。

 

Lily:

蛙声归根到底还是做硬件。有人说,在中国做硬件就是一个巨大的坑,厂商要面临很多供应链的挑战、原材料的挑战,你有没有踩过这个坑?

 

辛鑫:

做任何东西都有坑,但是在中国做硬件算是比较幸福的一个事情,中国有天然的技术供应链优势。我们也踩过很多坑,公司从2018年5月份成立,第一代产品2019年7、8月份出来,做得一塌糊涂。这中间是有一部分供应链的原因。供应链就是这样的,你必须假设所有的供应商都是不靠谱的,必须有人去检查每一个过程。我前段时间在读有关小米的书,里面讲到小米第一代产品要出来的时候模具出了大问题,一个硬件负责人跟一个产品经理就在工厂哭了起来。该做的事情全部都做好了,但是供应商不靠谱。所以必须要有非常强的供应链管控。

 

Lily:

你们团队里有人做过硬件吗?


辛鑫:

最开始我们是想去找一个ODM厂商,让他们去跟。但最后发现不靠谱,他们底下的人接到项目然后就去完成项目,这个项目做得好坏跟他没关系。所以这事不靠谱,一定要有自己的供应链团队。

 

Lily:

所以蛙声现在是自建工厂吗?

 

辛鑫:

到第二次迭代的时候,我们就自己把供应链的人配齐了。我们有自己的采购,自己的结构,自己的品质经理,所有的环节都是可控的。选工厂也是,工厂必须要配合我们工作,所以中间也有很多要磨合的东西。但是我们并没有自建工厂,我们找了一些外部供应商一起合作,但我们自己的人是深度参与到项目里面的,每个环节都是自己来把控的。比如说做一个硬件产品,看起来很小很简单,但实际上中间的环节实在太多了。中间几百个零件怎么弄?怎么确保每个零件都是好的?这都是需要把控的问题。

 

Lily:

做硬件供应链的挑战非常大,而且听起来就像是疫情概念股一样的事情。英挥你当时是怎样看蛙声的?你是怎么发现这样一个公司?

 

邝英挥:

今天世界上市值最高的公司是个硬件公司,苹果,他可以把硬件做得非常好。从我们的电脑、手机到耳机,好的硬件设备可以很大程度上让我们的生活变得更美好。我发现音频其实挺有意思的,平常开车的时候,不同的车的音响效果是不大一样的;对于耳机来说,好的耳机和差的耳机效果也是很不一样的;家里面很多时候也会放一个音响。声学可以帮助我们更好地听音乐,更好地感知,更好地体验,声音其实挺重要的。


很多内容是经过精良制作的,不管是音乐还是播客,或者是车载的广播电台,都是在非常专业的空间里面采集音频信号,然后再通过耳机或者说通过扬声器的形式播放出来,它的采集端是相对封闭的。在播放端大家都能够感受到这个内容是好是坏,或者这个设备是好是坏,对于体验者来说差别非常显而易见。


采集端之前离我们挺远的,现在大家需要开会,视频会越来越多,采集就变得越来越重要。因为如果说话的这端没有采集清楚,听的那端也挺痛苦的。


想象一下用手机开一个微信对话,经常会发生两边互相听不清楚的情况。很容易在一个小的会议场景里面,说话的人开始使劲吼。开会这个场景和之前不大一样,因为它需要很好地采集声音。采集声音其实比播放还要难,非常难。我们觉得采集是非常重要的一个事,需要有公司能够做一个更适应越来越多远程办公、越来越多线上会议、越来越多通话的产品。所以我觉得音频和声学这块还是非常有技术含量。

 

Lily:

那未来Zoom有没有可能做这个产品呢?

 

辛鑫 :

音频确实是这么回事,原来的很多制作都是精良制作。专业的设备可以做得非常专业,而且场景可以100%限定,但是会议室场景并不是全部开放的,也不是完全限定的,这就是以会议室为切入点的好的地方。


比如说你要做个最优化的问题,必须有点限制。所以这就是个带限制的优化问题。你是在会议室的空间内解决问题的,是有解的。但是如果说要在外面弄个什么东西,那是不可行的。但在限定空间内,做优化问题就是让声音听起来更真实,让效果更好,这个是可以做的,而且可以长期做的。


可以把会议看成是远程交互的一部分。除了会议以外,还有像直播行业,泛教育行业,每个行业都很细分,需要的东西都很不一样。你要去覆盖整个市场,你可能需要50个SKU,或者需要100个SKU,这个就是比较有意思的地方。


做一个产品可能市场空间只有1个亿,但50个产品就是50个亿。你得非常精雕细琢去理解这个场景。这就是为什么Zoom不愿意做这个产品,Zoom做软件很赚钱,为什么做这么苦的生意?

 

Lily:

蛙声会打包将产品卖给Zoom的客户吗?

 

辛鑫:

确实有非常大的潜力可以合作的。而且我们做硬件厂商,会帮他卖东西,其实对Zoom来说也是一个重要的渠道。

 

Lily:

蛙声会走到 C端市场去跟天猫精灵或者小爱同学PK吗?或者您觉得有没有反过来的可能?比如说小爱同学也去做To B了。

 

辛鑫:

做智能音箱,可以通过一个SKU是个占领全球市场,占领全国市场。但是音视频市场非常细分,做产品的投入很多但其实回报没那么大。一个团队二三十人做个产品出来,卖不了几个,不划算。这是第一,很细分。第二,To B是需要渠道的。做渠道这个事不是互联网公司在早期擅长的事情,更像是上市之后的大型公司干的事情。

 

Lily:

您刚才提到渠道,智能会议硬件赛道门槛其实就是两点:一个是产品质量,一个是销售渠道。您刚才有大量的时间在讲产品这一块的优势,关于销售渠道这一部分您有什么心得吗?

 

辛鑫:

过去我花了很多时间做电商,但是最近一年花了很多时间做渠道,思路完全不一样。今年从疫情前到今天,我可能一天至少见两三波代理商客户。我们对渠道理解是相对比较深的,渠道的核心就是渠道必须要能赚到钱,这是最核心的东西。你怎么能让他赚到钱?这就需要给他做好服务。第一,你的产品是客户愿意接受的,第二你要做好渠道价格保护。


渠道管控这块很重要,我们要避免价格竞争。我在2020年初引入了一个合伙人,这位合伙人原来是在思科体系做渠道销售的,他花了一整年时间将我们整个销售渠道从0开始建设到现在有40多个人。


我们的销售渠道分区域。北区的销售总监是原来罗技北区的销售总监,东区的销售总监是原来MAXHUB的总监,西区是原来思科的一个人,南区是神州数码的一个人。虽然我没有做渠道的基因,但是我们团队里面是有基因的。每个区域再配七八个人,就是传统的做渠道分销的方法。

 

Lily:

现在渠道和自营哪个比例更高?

 

辛鑫:

线下的东西全是做渠道,我们自己理论上是不出货的,全部通过渠道去出货。举个例子,我们在苏州签了一个苏州本地相对比较大的一个分销商,他在苏州本地就有二三十个销售,我们通过它的销售再去覆盖苏州地区的很多集成商,苏州地区集成商可能是几千家,每一家可能手上都有8-10个客户。

一个人天天跑,跑不了几个客户出来。但通过渠道的方法,就可以实现规模化。这个事情我也不是第一个,也不是最后一个。

 

Lily:

这样看起来其实To B的生意如果做好了,是比To C容易很多的?

 

邝英挥:

就GGV来说,有一些硬件是我们自己买的,比如说手机、笔记本,我们自己从网上下单可以买。像会议室的设备,还有一些IT需要的设备,需要相应的一些服务和合作。比如说要根据会议室的情况和需求来推荐合适的产品,包括给推荐一些产品的测试。中间环节有一堆这样的服务公司,IT不是直接在网上买一个产品就能用的,有很多种方案,有不同的产品,都可能需要试一试。从谁那买呢?就是这些中间渠道商。渠道商、经销商、包括集成商,还有专门给企业做视频会议的服务公司,其实都是一类人。从效果上来说,我们可以测试市面上不同的产品,然后从中选取一个最适合我们的。

 

Lily:

您刚才提到一直讲我们的产品很清晰,无论是音频还是视频的质量都很过人,所以从技术上来说有什么样领先的优势?技术团队在公司占比大概是多少?

 

辛鑫:

我们公司虽然不大,到今天70多个人,研发有30多个人,不到40个人,但是我们有10个人是做音频算法的,我们在这方面投入其实蛮大的。我们从公司成立到今天将近小三年的时间,我们在上面投入是非常大的。


从前端的比如说像回声消除、降噪去混响,到后面非线性的混声消除,非线性的很多东西都是需要很多人去做的工作,非常细。而且算法这方面的人才非常少,我们自己也培养了一些人,从社会上也招了一些人。算法是一个非常细致的事情,但是只有算法是不充分的,除了算法以外,你还要理解场景,你要理解客户是什么样的情况,你要见到足够多的客户,算法适配不同客户的环境之后,才能说这产品是可以的。我们服务了几个大客户之后,整个产品已经优化得非常极致了,拿出去都不会有人来抱怨我们音频的问题了。


很多时候从想法到算法到落地这个过程,必须是要有反馈的,要有东西卖出去,你跟客户才有交流才有反馈。在没有反馈之前,你所有的想的东西(和实际的东西)都不一样。我做什么样的产品?可以有无穷无尽的种类。你也可以抄市面上某个产品,但假如说抄的产品本来就不成功该怎么办?或者你抄的时候有很多想法,在原本基础上加一点自己的想法,进行了创新。但创新不一定是对的,你可能是往一个坏的方向去了。所以必须做出产品,并且有客户之后,你才能有反馈。为什么像海康、大华这么成功?因为它有客户,可以持续迭代。这是很多公司没有的。


Lily:

思科和保利通这样的公司,已经有很多年的技术积累和运营经验了,在技术上一定比咱们更成熟。如果有一天思科进来赛道,你应该怎么面对这种挑战呢?

 

辛鑫:

原来很多中国公司做硬件是没有任何软件的东西的,很多深圳的公司连研发都没有,做个产品出来就卖了。但我们这代人不一样的,虽然我们在美国待的时间也没那么长,但也有10年,我们代表的是欧美最先进的研发实力,我们的研发实力不比思科、保利通差。


而大企业可能会有的问题在于,他们的创新性是否一直能保证领先?这是第一。第二,它的成本非常高,他需要养市场推广的人、研发的人,而且上市公司要面临很多资金、毛利的要求,所以产品价格必须很高,要不然是亏的。但我们可以赢得成本优势。我们产品的效果也很好,长期看来这个市场一定是我们的。

 

Lily:

再问您一些运营有关的事。您刚才讲一代产品的事,一代到二代之间是有一年多的时间,在公司有这么多很多人力成本开销的情况下,您当时资金是怎么撑下来的?

 

辛鑫:

我以前做过电商,做过运营,我大概知道省钱是多么重要。我们非常节省,这是我们的一个缩影。我们做了两年,最后发现账上钱一分钱没少。第一,我非常认同一个观点,以前拉卡拉的董事长孙陶然讲得非常好,在公司产品可卖之前一定要最小化,这个就是我们做的事情。在产品可卖之前我们没有任何多余的投入,我们甚至连管理投入都非常少,主要就是在研发上面的投入。

因为你产品都不能卖,找销售没有用,只增加成本。所以在产品成熟之前你需要节省成本,没有人知道这个产品能不能做出来,能不能成功。谁也不知道。

 

Lily:

英挥你在做尽调的时候,你觉得蛙声最吸引你的是什么?

 

邝英挥:

产品。我觉得GGV投了挺多好产品的公司,包括小鹏、小牛。都是全球数一数二的产品。我们当时在装修新办公室,跟我们IT聊天,问新的音频、视频用什么。他们说全是进口的,很贵。我说难道现在中国没有好的公司吗?GGV一年要视频开会要开很多个小时,老板们特别在意这种体验,我们其实也愿意投入,去找世界上能找到的最好的产品来给我们一个最好的体验。试过那么多之后,发现还是那几个少数的进口产品才能够支撑,而且它们在中国没有支持和服务体系。我当时就觉得很奇怪,偶然的机会看到蛙声之后,就拿来试试。


既然有产品了,最好的方法就是拿过来试试。在我们的会议室里面装了一段时间蛙声的设备,当时IT给我的原话是完美适配了我们的会议室,他觉得这是我们测过的(产品)里面综合效果、体验、性价比最好的产品。我还记得跟合伙人们沟通的时候,说这不是一个性价比版本的国产替代,直接对标全世界最好的性能。

 

Lily:

我记得上次跟辛总开会的时候,我们用蛙声的摄像头,有一个很有意思的功能,可以把两个人的头像聚集在一起。

 

辛鑫:

很多时候人们还是有沉浸性的体验需求的。举个例子,我7月份的时候跟另外一家投资机构的人聊,当时离对方很远,根本看不清他的表情,我觉得那次沟通非常差,后来跟对方面对面效果就好了很多。


很多时候如果沟通看不到对方的表情,你不知道该讲什么,沟通效果是很差的。所以我们基于这个问题做了一个新的功能,就是会议室里边谁在说话,就把谁的头给抠图出来,这样话可以把人的表现看得很清楚。


这个可以通过人工智能实现,我们可以通过人体检测把人定位得很清楚,再通过声源定位把说话的人给框出来。我们是一个非常高科技的公司。什么叫高科技?让你用起来之后感觉不到有任何高科技的东西,但是又把你的问题解决掉了。

 

邝英挥:

我还记得当时问IT说这个麦克风的技术很难吗?他说真的很难,看着可能就是这么一个硬件。但其实里面有大量的算法。人说话的声音可能离得远、离得近,还会有回声,会有敲击键盘的噪音、走路的噪音,会有各种各样的声音。如何准确地把人的声音识别出来并保持它的清晰度,这背后有大量的算法。所以这是一个非常有技术含量的产品。想象一下一个好的耳机或者好的音箱有多贵?可以有很贵的,而且效果是真的好的产品。其实麦克风比耳机、音响还要难做。


Lily:

未来如果世界范围内疫情好转了,您认为后疫情时代视频会议赛道增长会不会变缓,对您会不会有什么影响?

 

辛鑫:

我觉得分三个方面来回答。第一,我们2018年开始做这个事情,那时候连Zoom都没有上市,所以首先要认可我们的眼光。我们看准这个赛道。


第二,很多人认为事情的发生都是事件驱动的,但我们认为还是长期积累下的需求决定的。举个例子,很多小公司都有三四个办公室,可能做模式创新的在北京;做电商要在杭州;做供应链、做生产要到深圳,多个地方办公已经成了常态。要做国际化,海外还有很多人,所以国际化是一个长期的趋势,需要在各个地方放不同的人。所以远程的沟通是必要的。


第三,疫情结束之后,很多原来没有视频会议使用体验的人,他会逐渐开始使用这个东西了。原来没有这个习惯,现在有习惯了,并且疫情之后(人们会)发现回到办公室,人变多了音视频效果更差了,所以还是要买产品。我相信未来几年整个行业的复合增长率会在50%以上。


很多时候一个市场兴起之后才是最好玩的时候,因为它已经有足够的市场基础量了,你在里面可以抢别人的生意。当这个市场没有起来的时候,你抢过来100%也没有多大。



继续阅读
阅读原文