AI Talk | 思必驰首席科学家俞凯：深度绑定底层研究和产业问题

机器之心原创

作者：高琳

这个世界上的研究，总会有一些人去坐冷板凳，而坐冷板凳的人，他今天去坐明天不一定去坐。就像深度学习现在这么热，之前也有过很冷的阶段。

创业的这个过程中能够义无反顾，这是思必驰团队非常有特色的一个点。当然不是傻的义无反顾，如果说大家都没有学习能力，只是撞南墙是肯定不行的。但是如果没有这种义无反顾的决心，遇到困难就放弃，我不认为是一个合格的创业者。

对于创业者来讲，如果说他在很多事情上，不能够拿自己底层的东西去拼的话，这个创业，恐怕一遇到困难就会垮掉。

从研究到创业，这是俞凯在机器之心 AI Talk 节目中发表的感想。在学界，俞凯教授现任上海交大计算机科学与工程系研究员，智能语音技术实验室主任；在产业界，他是思必驰创始人、首席科学家。他还是国家优秀青年科学基金获得者；IEEE高级会员；IEEE语音语言技术委员会委员；入选国家「青年千人计划」；入选上海市「东方学者」特聘教授。

在下面的专访中，俞凯教授从对研究、技术的思考，谈到了个人经历以及创业。

关于研究方向和技术解读

机器之心：成立于 2007 年，目前思必驰在市场上的定位是什么？

俞凯：思必驰 2007 年成立于英国，回国是在 2008 年。期间经历了几个阶段，之前一个阶段是以口语教育作为主要方向，利用智能语音技术来实现口语的发音评估和口语综合能力的评估；第二个阶段 2012 年我回到国内之后，整体方向向移动互联网和智能硬件转移，以全面的端到端口语对话系统作为最终极、完整的系统解决方案。现在思必驰整个的定位是在做以口语为主体的自然人机交互的智能解决方案的平台。

机器之心：思必驰主要的研究方向是哪些？

俞凯：主要的研究方向包括了自然口语交互所能涉及到的各个方面。典型的包括语音识别、合成、理解和交互控制，我们一般把它叫做对话管理。还包括了语言的表述、一些背景自然语言文本的处理，也包括了一些丰富音频的分析，比如说声纹。总之就是人和人之间所需要进行语音和语言交互的各个阶段的模块，以及整体系统的架构等。思必驰未来的目标就是要让机器能够像人一样，人性化的去做交互。

机器之心：思必驰的研发技术是怎样应用到产品中去的？

俞凯：一般来说，首先会有基础算法的研发阶段。自身的研究积累以及在国际上所能够碰到的最好的技术，我们会结合非常实际的场景，做出评估。技术本身存在的算法壁垒、数据壁垒，或其它一些技巧性的壁垒，这些是需要在基础研究阶段解决的。解决之后，结合公司自身的实际情况，把相应的技术转化成实际产品当中。

此外，思必驰是一个具有基础研发能力的企业。真正有意义的很多科学问题，是从现实世界中的难题提炼的。真正在做人机口语自然交互过程中，碰到的各种各样的难题会倒过来，再把它变成科学问题，继而去做基础性的研究，再反哺到现有的基础上。

举个典型的（纠正）例子。如果把它看成一个产品设计，单纯从纠正号码这个角度讲，谁都可以把它做出来。但如果把它看成是一个技术问题，比如动态规划的推理，比如去做架构层面的一般性的设计。不单单是大家看到的现实产品，还要把背后的所以然搞清楚。这就是从现实问题，再到研究再回去。这是思必驰比较特殊的一个地方。

机器之心：目前自然口语对话领域，最值得关注的方向有哪些？

俞凯：首先从文本性的对话交流来讲，未来一定是要走向文本和口语结合的。纯文本在 PC 互联网时代比较容易获得重视，因为大家天天都是在看。但是在移动互联网时代，无论是现在的手机，还是未来的智能硬件，更多时候大家是在交互。

未来自然语言的信息交互，它是以口语通道为主，辅以其它通道。从这个角度上讲，未来的方向从我来看，有两大部分：一部分是通过以深度学习为主的方式来解决语义本身的表达和分析，当然这也包括知识的表达和分析；另一部分就是解决交互问题。交互是一个新领域，在过去 10 年，才逐步得到大家的重视，交互要做的就是让机器可以像人一样去做决策。

机器之心：深度学习的出现，给自然对话领域带来了哪些改变呢？

俞凯：最大的改变就是可以用大数据自动提取一些上层的抽象的特征，能够使得传统的自然语言处理的任务，在深度学习框架下，性能得到非常大的提升。这个改变意味着在传统的科学范式里所要解决的几类机器学习问题，几乎都可以得到比较好的解决。举个例子，比如说分类问题，比如说回归问题，只要你能把它，我们叫 formulate，就是把这个问题变成这两种格式，那么采用深度学习，再加上辅助有比较大的数据量，几乎都可以很好地解决，相当于提供了非常厉害的通用方法。

机器之心：NLP 领域要继续发展，应该去探索哪些新的方法？

俞凯：深度学习的潮流，从现在来看种类越来越多。它的意思是，大主流可能还叫深度学习，但它里面出现了很多新的小的分支。不再是像以前以神经网络为主要方法，以大数据为主要的燃料，主要方法加上燃料，它就能造出很多很好的结果和火花。

第一个例子就是关于迁移学习和深度学习之间的关系。深度学习是需要大数据的，传统的问题范式下，它能解决得很好。在很多时候无监督的时候，你是没有标签的，或者说你只有很少量的标签。在你已经区分了男人和女人之后，我下面再让你去区分小孩和女人，怎么去区分？这个时候就可能是要解决一个，既有很大量的数据，但又不满足传统问题范式，或者是你又要去到一个新的领域，那个时候迁移学习和深度学习的结合就变得很重要。

第二个例子就是现在的深度学习，已经比较好地解决一些问题，主要还是大数据驱动。但随着我们越来越向认知这个方向去进发的话，知识和数据的联合驱动就变成一个特别明显的方向。像这样一类新的范式，它都会使深度学习本身又产生很多小的分支，不再是单纯的深度学习，而是在我们解决问题的方法上，甚至是在我们发现问题的方法上有非常大的变化。

机器之心：GAN 和强化学习结合来做序列产生是最近研究的一个热点，被视为 GAN 进入 NLP 的一个开端，请您谈一谈 GAN 在解决 NLP 问题上的前景和挑战。

俞凯：实话实说，我到现在为止没看到很成功的 GAN 的例子。

自然语言是一个序列，那么之前 GAN 它是放在图像的生成上，放在自然语言序列上面的话，就需要满足序列生成的一些特定条件。因为自然语言处理是一个离散的东西，它不像 image，它是个连续的值。比如说一个 density，那么它的灰度 156 和灰度 155，这两个肯定是接近的。但如果放在自然语言处理里，虽然可以把它向量化，但很难讲那个向量里面，156 这个值和 155 这个值在语义上或者是在其他的语言学的度量上，它是接近的，很难很难去规定。所以从现在看到的实践结果，GAN 有一些结果，但都不是在主流任务上面，所以对 GAN 是不是能很好的应用，我本人还是打了问号。

未来 GAN 要产生影响，至少从我的观点，自然语言处理中，如果要有巨大的飞跃，那么先验知识的放入是不可避免的。而如何比较巧妙的用少量的先验知识结合无监督的大数据，或者是在这个先验知识本身的结构形态上面，有很好的深入的通过机器学习的方式做解构，这个可能是未来能够产生突破的一个很重要的方向。

机器之心：完全数据驱动的端到端训练方法是目前流行的解决方案，但完全脱离先验知识或者其他相关资源似乎并不可取，您如何看这个问题？

俞凯：首先我不认为端到端是个趋势。就算有很多人都同意，我自己的学术观点就不是这样。很简单的道理，你看一看现在真正业界用的系统，有谁敢说是完全端到端的。端到端最大的问题，最大的好处是，你不需要去设计中间每一个模块的架构，它可以使得你用统一的架构去解决一个问题。

这就使得在简单的大数据驱动框架下，它能够做得很好。但假如你所面临的这个任务本身它是需要可解释的，它甚至是需要可调整的，那么端到端它只给了你一个黑箱子，可能很难去调它，而自然语言处理恰恰是这样一类问题。

不论你能把翻译做得多好，我现在给了你另外一些新的数据，比如说是个新的领域，我请你来帮我改变一下，那你怎么做。即使是用端到端的做法，那也是要结合一定的知识架构，去做迁移性的端到端。所以我不认为简单的端到端，是一个目标。重要的事情，核心的点还是在于与应用的结合。在具体到真正的应用领域当中，它会有自身的一些特性，而那些特性反过来又会促进新类型的机器学习方法的产生。即使叫端到端，也是有语音语言背景的，这样一些特殊的端到端，它要做到可解释，它要做到可调整。这样的东西才是真正有发展潜力的。

机器之心：那怎样利用好常识、已有知识来解决现在的实际问题？类似「最强大脑」语音识别比赛中的监督学习。

俞凯：在过去的四五年，我大概探索这么几类。一类就是把先验知识以某种方式变成向量化的表达，然后输到你的网络里，这一类思路主要研究先验知识怎么表达。Word2vec 这是最典型的一个。但如果我问你，假如你想要表达一下你的语义，你怎么表达呢？这一类思路是研究一些复杂现象的表达，然后把它输到传统模型，放到它的输入或是输出。

第二类，就是从模型结构层面，把一些先验知识放进去。在我们做语言模型训练的时候，我是给定了前面的文字，然后去预测下一个文字。这是基本的一个概念，我们给定的文字是什么呢？比如前面给定了 5 个词，你去预测第 6 个词，但在这个时候你就会发现，中文还有一个单元是字，字和词之间其实是有组合关系的，有一些时候单字是没有意义，组合成词才有意义。但更多的时候是单字本身，它对于词的意义甚至对词的预测是有帮助的，那么你如何把单字和词放在一起呢。

我们当时做一个工作，在一个基于词的神经网络回归模型里，我们加了一个词分解成字的结构。在预测输出的时候又把字再自动合成词，相当于内嵌了对字结构的描述，这种情况使得在一些低频词上面的预测概率变得非常的好，这就是在模型结构上去做预测。

第三类，就是传统的机器学习问题。我们当时做了另外一类思路，就是说可不可以把一些先验的知识，通过约束条件的办法放进去，我既不改模型，我也不改输入输出，但是我加一些比较特殊的约束条件。在我们做这个对话状态跟踪的时候，就曾经做过这样的一些例子，取得了比较好的效果。

机器之心：在交互的场景下，该如何针对人们不同的这种知识背景进行学习并反馈正确的内容？

俞凯：现在基本上是采用迁移学习的一些思路来做。比如所谓在多任务的情况下，做语义任务的分解。然后共享中间比较共同的网络结构，在比较特殊的结构上，再去进行一些小规模参数的协调，大概是这样一些方法。

我觉得在交互的时候，不同人的说话的方式不太一样。有一个前提是，要想做这件事，总需要有这个人的少量数据才能做。我认为在方法上，还有很多其他类语音的自适应方法也可以放到自然语言处理中是没有问题的。但瓶颈不在这，瓶颈在于根本拿不到这种交互数据，这是目前产业界和研究界都比较困惑的事。

机器之心：目前科技巨头都在致力于发展语音交互的机器人如 Alexa、 Siri、 Cortana 等，未来是否可能会有公司或是会议牵头制定语音行业的标准？

俞凯：我相信人工智能的标准一定会在很多地方都会被制定，这个我相信。但具体是说，行业联盟的形式还是什么这个我们还需要看。包括思必驰自己，因为我们在做的东西，是端到端的交互，而且我刚才也提到，从我来推动的一个方向，把它推到所以然方面，会比较有架构的方式，系统性的方式来观察它。所以我们自己也在做一些这种标准化的工作，这对未来和这个行业的一些同行，我们一块来做这个标准我相信都是有帮助的。

机器之心：在语音训练数据的选择上，思必驰会进行数据的筛选和预处理么？是如何进行预处理的？

俞凯：一定会做的。现在就是这种预处理，绝大部分肯定都是自动来做的。这种就涉及到一个具体的技术，就是基于这种置信度这样的技术。我们会采用一些快速的，半人工的手段来做的。

机器之心：当前基于深度学习的语音算法和传统基于统计模型的方法有很大的区别，特别是在特征设计和提取上呈现明显的简化趋势，而这样的趋势会误导一部分学生和从业人员，使其轻视传统的语音基础研究。请您谈一谈对这个问题的看法。

俞凯：两个角度。第一就是从业者的角度，从我的看法上来看，更多是关注比较实用的技术，所以我认为这是非常自然的。什么有用，就应该向什么方向走。但是它是有瓶颈的，现在深度学习就已经到了一个瓶颈。首先它整体水平很高 90%，甚至更高，但是想把它做到 95%，做到 97%，你想在不太配合的环境下去做，这个时候纯深度学习的东西就会出现一些问题，那么势必就要去考虑，深度学习本身的扩展它很可能就是符号主义和连接主义之间的一个结合。

第二个角度就是从研究的角度。这个世界上的研究，总会有一些人去坐冷板凳，而坐冷板凳的人，他今天去坐明天不一定去坐。就像深度学习现在这么热，之前也有过很冷的阶段。80 年代神经网络很火，后来 SVM 出来之后神经网络也冷了一段时间。那么那个时候是不是它就没用了呢？其实不是。

从研究的角度上看，反而应该更鼓励多元化，传统的基于符号处理的一些东西，它有它固定的一些优势，只是现在深度学习的影响力，明显要更大一些而已。两者都还要向前发展，没准再过了一段时间，符号主义又会卷土重来，但我相信跟以前的也不会一样，一定是某种层面的一个否定之否定的结合。

关于个人经历和思必驰

机器之心：您大学本科选择了清华大学自动化系，为什么选择这个方向？

俞凯：在高中考大学时，不会想得那么清楚，只会有一个模糊的大方向，主要是选择这个信息大类。而我自己选择自动化系，其中一个很重要的原因，不是专业原因，是在当时招生的过程当中，系里大概聊到，除学习之外，还有好多社会工作、文体活动等。

机器之心：从博士期间一直到现在，你一直在做语音和语言处理方面的研究，你看到行业有哪些明显的变化？

俞凯：我在剑桥待了 10 年，前 5 年做的是语音识别，后 5 年做的是对话系统。我在博士毕业的时候，同学都不想找语音的工作，我同级毕业的很多同学去了金融公司。那个时候，相对来说是语音发展的一个低谷。

我看到一个特别特别大的一个变化，是从 2010 年左右，尤其是 siri 出来之后，整个语音在机器学习和人工智能领域里，应用这个层面的地位，就是变得非常非常的高，而且技术的更新迭代也特别快。

第二个感觉就是，很多事情可能在你开始做的时候，你没有意识到它是那么前瞻。我在开始做口语对话系统的时候，只是认为语音识别本身是不够的，需要在闭环里面去做优化。2007 年刚开始做的时候，感觉这是未来的方向，心里也不是那么有底。但是到了 2013 年 2014 年之后就非常明显，语音识别本身由于它的快速发展，很快接近饱和，那么越来越明显的问题就是怎样做交互。尤其是到了 2015 年 2016 年到现在交互式的对话，这个方向已经俨然成了整个业界都非常关注的。所以从基础研究的角度上讲，没有办法太功利，而且也不能太功利，但是如果整体方向判断是对的话，那么终将还是会有一些结果。

机器之心：在剑桥合作项目的导师 Steve Young（剑桥大学皇家工程院院士）教授是自然对话和语音领域的权威人物，也有着传奇的经历，他在您的研究生涯中扮演着怎样的角色？有哪些值得回忆的故事？

俞凯：Steve 是一个非常有意思的人，他确实有着比较传奇的经历，他是最早开始做语音识别基础技术研究，也是最早来做语音识别的开源软件。那个时候剑桥推出一套开源软件叫 HTK，HTK 曾是全球使用最多的这个语音识别方面的开源软件。他最开始是先做理论的研究，他还是一个很有商业头脑的人，他就把这个事做了产业化。

当时在 90 年代的时候把他的语音识别技术产业化之后卖给了微软，成为现在微软的最早的语音识别的基础。到了 21 世纪的第一个十年，他又和另外一些 Top 研究者合作去做了语音的合成，在 21 世纪的第一个 10 年来卖给了 Google，是现在 Google 的整个语音合成的基础，位于伦敦。在语音合成之后他又把自己的重心又放在对话上，这就是后来我们曾经一块儿做的一家公司，叫包括 VocalIQ，2015 年被苹果收购了。

在产业上面，他是比较有传奇色彩的。当时我们在一起工作时，就感觉到这是非常 energetic 的人。他同时在做以上这些事情的同时，还是剑桥大学的常务副校长，还是 IEEE SLTC 的主席。最有趣的事情，是在剑桥我们所有人既做工程又做理论。所以我自己肯定是要编程的，但是他会和我一块编程，会编程查我的代码。想象一下 60 多岁，这么一个人在做着刚才我所说的这些事儿，真的是非常传奇。

机器之心：在清华大学就读期间，您曾经从北京骑车到西安，骑行 1500 公里做社会调查考察国情民生，甚至在骑行之前写下遗书，为希望工程做网页时 60 多个小时没有睡觉。是怎样的内驱力使得您有这样的经历？有哪些故事可以分享。

俞凯：在我自己的本科学生时代，我回忆的不是科研，一定是我在年轻的时候，这些比较有意思有价值的事情。比如骑车这件事。1997 年，Google 还没成立，没有网络，我们想在中国骑车，就是要认识自己的国家，要做社会调研。男生都比较喜欢闯，要试试自己的极限。当时条件是比较艰苦的。如果我问你，我能不能过黄河这个事儿，你能回答我吗？你会怎么回答我，你怎么证明黄河上有桥。这个在现在看起来很天真的问题，但是在当时，却很难解决。但我们当时就是要去做一点事，一定要做成，真的非常锻炼自己的能力。所以当时就打电话到当时的交通局去问，河水的涨落，是不是有桥会被淹了的情况。包括在我们出去的时候，要写遗书。你必须要考虑有什么样的危险，那个时候就像推公式一样要去写，会有哪些危险，哪种危险你该怎么应对？身上该带多少钱等等。

当年的这些事情锻炼了我，让我意识到，当你迫不及待想把一件事做成的时候，不管是做科研还是做其他事情，都必须要有方法，必须要有意志，必须要有理想。方法是支撑你的工具，意志和理想可能是支撑你的精神动力。这些东西都必须要有，这是我在大学期间，自己去做这些活动特别明显的一个感受。

机器之心：您和创始人高始兴高总，从同学变创业伙伴，你们之间有哪些故事可以分享？

俞凯：当时我们在剑桥的时候，是同一个学院的，但是来自不同的系。按国内的说法，可以理解是他在商学院，我相当于是在工学院。虽然来自于不同的背景，但在这个学院里我们吃饭，娱乐都是在一起。认识了之后，发现在很多的问题上有共同点，并且都想要去做一些事，后来就决定一起做思必驰。

我印象深刻的则是在碰到困难的时候大家的态度。思必驰在发展过程中有起有伏，但大家经得住折腾，一起扶持走过。任何一个组织的发展，都会有很多的折腾。这些折腾不单单是说，一个商业决策错或者是对这样的折腾，它还包括着很多心力交瘁的折腾。对于创业者来讲，如果说他在很多事情上，不能够拿自己底层的东西去拼的话，这个创业，恐怕一遇到困难就会垮掉。我们两个在这件事情上，在过去的这么多年里面，其实经历过好几次公司比较困难的时候。在最困难时，也会做一些比如把自己的房子给抵押了，这些都会有的。

创业的这个过程中能够义无反顾，这个事儿是思必驰团队非常有特色的一个点。当然不是傻的义无反顾，如果说大家都没有学习能力，只是撞南墙是肯定不行的。但是如果没有这种义无反顾的决心，遇到困难就放弃，我不认为是一个合格的创业者。

机器之心：2007 年在英国开始创业，是不是一件主流的事情？面临的挑战如何？

俞凯：当时的情况，创业肯定不是一个主流的东西。大部分同学进入到比较大的公司，甚至连高科技公司都不一定，很多都去了金融公司。更多的是找一份比较稳定的，比较高薪的，能够预测的工作。我觉得做不可预测的事情的人，永远都是少数。所以决定做这种事的人，需要有一些内驱力。当时在做这件事的时候，并没有真正预计到后面会有那么大的困难。但当时，大家会有一种冲动，想来做一些改变世界的事。

机器之心：去年 11 月，您当选为 IEEE SLTC 大陆高校成员，您是如何看待全世界范围内，华人在人工智能领域做出的成就贡献以及承担的责任？

俞凯：去年 11 月当选 IEEE SLTC 大陆高校成员，我应该是这家组织成立三十多年，中国大陆高校第一位成员。进到这个 Committee 里面的之前大陆只有微软研究院的宋歌平老师，但他不是高校的成员。近几年我觉得非常明显，在人工智能的热潮中，华人有着举足轻重的地位，无论是在机器学习，还是在几个典型的应用领域，图像和语音。我的感觉是我们这一代人，甚至比我再稍微年长一点，以及比我再小一点的这一代人，其实承载了中国的科技走向世界的一个使命。我也很希望自己能做的事，就是在中国做世界水平的研究，在中国做世界水平的产业。

机器之心：您曾经提到过在国外就读的时候，经常会有人把您和地平线的余凯老师的名字弄混的轶事，可以讲述一下么？

俞凯：我们两个英文名字是完全一样的，都是 KAIYU。巧的是，我们两个还是同一年出生的，然后是同一届，而且我们做的领域相对来说又比较近。都是在机器学习，他可能更偏机器学习理论和偏图像一些。我是偏这个语音和语言方面的应用一些。所以在国外的时候，搞混的时候就比较多。比如有一次，有人发给我说有篇论文需要审一下，我审到最后发现论文引的是那个余凯的，我心想一定是弄混了。

机器之心：您曾经参与编译了邓力和俞栋老师合作的《语音识别实践》，当时您是怎样参加这个项目计划当中的，您和邓力和俞栋老师有怎样的渊源？

俞凯：当时因为他们有这本书，然后就联系了一下我，然后谈下来，我当然是很愿意来帮他们完成。邓力和俞栋这两位老师我一直是比较尊敬的。2009 年深度学习在语音领域成功应用之前，他们就一直在做相关的一些摸索。但当时并没有被大家所认可，但正是因为有了前期这样孜孜不倦的摸索，才使得他们后面有条件有可能实现比较好的技术飞跃。

在一项新技术产生的过程中，是需要长期的积累，绝非一蹴而就的。而这种能在一定程度下，耐得住寂寞，能够坚持自己的理想和方向，这样的人都是值得钦佩的。

机器之心：您怎么看待近几年来学术产业化或者说产业学术化的趋势？一些学术界的优秀代表们陆续投身到了产业化的实践中。

俞凯：这个趋势我觉得挺好的。这个趋势的一个前提是，它说明我们现在的这个高等级的技术研究与产业的结合已经越来越紧了。它不再是一个完全形而上的东西。

产业学术化，最典型的例子，现在的机器学习的几大开源软件，其实几乎都不是学术界主动提出来，都是产业界在推，而这些开源软件反过来又推动了产业界内部的一些新兴模型的建立以及学术界的学术研究。这就是产业学术化，它是把产业上的一些东西反过来推动基础问题真正的解决。

学术的产业化，因为人工智能时代和之前几个信息发展的时代有个比较大的不同，是它对于这种创新密集方面的需求更强，从我的感觉人工智能这个时代是一个创新密集型。创新它实际上既需要有工程上的强整合能力，这也是集成层面的创新。但它也需要有基础的研究的创新能力，以及不断的从知其所以然的基础架构上，去推动创新可以持续发展的这样一种底层的这样的能力。

机器之心：对于思必驰来说，它有一个很大的特点，就是产学研一体，这对思必驰的发展和助益有多大？

俞凯：这是非常大的。我刚也提到了，人工智能是一个创新密集型的产业。它未来的发展一方面取决于产品层面的设计是不是合理，以及商业层面的考虑。但思必驰是一个平台，是一个技术驱动型的产品的公司，技术驱动的力量是非常大的，它必须要能够有持续的大规模的创新型的技术研发能力，思必驰一直以来很明显的一个战略，就是要把底层的研究真正和产业问题深度绑定，深度结合在一起。

思必驰做这件事，不是简单为了套现走人。在语音这个领域，能够做得比较长久的，都不是靠一时的产业上的机会，或者靠一时的工程化水平比较高做起来的，都需要有一个比较强大的研发团队支撑。

机器之心：思必驰要打造一个人工智能技术的平台。不做具体的应用级产品，只做语音技术平台，出发点是为什么？

俞凯：我们整个团队相对来说，具有的比较明显的一个能力，就是平台级的技术能力。我们还是一个比较技术驱动的团队，加上我们有基础研发的能力，是最适合做平台的。

我经常会把整个的人工智能企业大概分成三类。一类是做模块性技术，一类是做平台型技术，另一类是做人工智能的应用的。这三类里面涨得最快的是做应用的，走的最宽的应该是做平台的，小而美的就是模块型的。能够做平台的，它需要有很多条件。

第一，有底层基础比较好的技术团队，它能够使得平台越来越往上翻。第二，从整个商业模式出发，在历史流程上讲，团队的基因比较适合做这个事儿。第三，就是会有现实条件。思必驰是在移动互联网发展起来的新的时机，产生了人机交互方式的变革，我们恰恰在这个方面有先期的研究积累，并且有比较清晰的 vision，还有一个算不错的团队。恰恰在这个时间点，而恰恰我们有这样的能力。所以我们也会说：If not now,when? If not us,who?

机器之心：思必驰面对科技巨头和创业公司，其在市场上的核心竞争力是什么？

俞凯：首先，技术层面有一定的先发优势，这是一小部分，比较大的一个层面是我们对人机交互、人工智能整个的产业方面的这些积累。目前思必驰在做平台我们很专注，这一点很重要。现在人工智能发展的机会太多了，就算是平台都有很多不同的平台，不同的机会。这个蛋糕太大了，巨头总会需要去切一部分，而在我看来蛋糕的增长速度比分蛋糕的速度甚至还要更快。所以我会认为很多情况下，巨头的专注性不会比我们强。和巨头比，我们会聚焦于到一个点。

第三个层面就是人，我们是义无反顾的，全力以赴的在做这件事。做不成这件事情，那可能对于我们来讲就是一辈子的事，所以在做这件事情的决心上，以及整个团队所能够付出的这个努力上面，那我会有一个感觉，叫做狭路相逢勇者胜。

机器之心：创业以来，对您个人而言是否发生过认知层面的颠覆或转变？

俞凯：在我现在的这些 title 里面，我实际上是没有管理职务的，我这几个 title 都不是管理职务的 title。公司在最初创建的时候我参与了大量管理的工作，是公司主要的管理的人员之一。之前因为也有过管理的经历，所以很自然地在最开始做的时候，既做技术又做管理，经过一段时间就发现会有一定的问题。

我认知上的一个转变就是要在合适的时间集中精力做合适的事。不管你自己有什么样的条件，一定要有一个合理的分工。我们会把企业本身的管理和公司的技术发展这两件事儿，让专门的人做专门的事情。

其次，在公司整体的战略上，保持最高层的战略层面很好的沟通和交互，使得技术层面的战略 vision 能够让直接的执行层面的人，有所感知未来的方向可能是个什么样子，结合实际的市场的状况去做调整。所以对于科学家怎么来参与到创业里的认知，中间是经过了一些变化，而这个认知目前也还在不断的变化，否定之否定。

机器之心：您之前在文章《走在世界的前沿——剑桥语音识别》中介绍了剑桥语音识别历史（截至 2003 年），那在最近这十几年又有什么标志性事件发生吗？

俞凯：这十几年最大的标志性事件一定就是深度学习在语音领域的应用。它其实改变了现在语言研究和使用的格局。在研究上面，使得很多的传统方法现在确实它的性能就不够好了。所以很多人改变了自己的研究范式，开始以深度学习作为一个必不可少的组建来进行研究。

机器之心：创业以来，时间精力有限，您是如何平衡自己的工作和生活？

俞凯：我回国之后，好像和我夫人一块出去，休假两天以上的这种假期，我回国很多年了，应该是一只手可以数得过来的。之前我和我夫人的蜜月，是在南极度的，现在没有时间。

人在每一个阶段，他可能有自己每个阶段必须要做的事。在我们现在这个阶段，事业发展得比较快，大家一定是要全力以赴把这件事做好，所以必不可少的要牺牲一下自己个人的一些时间，但我相信这个事情总会随着事业不断地发展逐步得到新的平衡，这总是一个循环上升的过程。

机器之心：思必驰未来的发展愿景是什么？

俞凯：我会希望它是新的人工智能时代的一个信息交互平台，就是一种人和机器可以去沟通的平台。这个如果说你让我去描述一下的话，就是让人和机器的沟通更自然更人性，是一个能实现这种使命的平台，我觉得就是比较好的。

「AI Talk」是机器之心最新出品的视频访谈栏目，旨在邀请国内外人工智能顶级专家分享对技术和行业的观点，为大家呈现更为直观、丰富的内容。

不只是创业家，同为研究科学家的俞凯将在 GMIS 2017 分享更多！

短短的一篇 AI Talk 并不能说尽俞凯教授对人工智能、语音交互的认知。在机器之心 GMIS 2017 全球机器智能峰会上，有着丰富研究经验与创业体会的俞凯教授将为大家带来更精彩的演讲。

2017 全球机器智能峰会（GMIS 2017）是由机器之心主办的关注全球人工智能及相关领域的行业盛会，将于 5 月 27 日至 28 日在北京 898 创新空间举行。为了让更多人工智能爱好者参与进来，我们也已经开启了免费赠票活动。

在文章《机器之心 GMIS 赠票 | 读懂大会宣传片的故事，我们请你免费参会》下面留言，即有机会获得价值 2018 元的大会门票。

获取大会详情及购票信息，请点击「阅读原文」查看大会官网。

继续阅读

阅读原文