不智能/不好用，车载语音如何“破局”？看看Cerence怎么做

加入高工智能汽车专业行业群（自动驾驶，车联座舱，商用车），加微信：17157613659出示名片，仅限智能网联软硬件供应商及OEM。

“现在市面上看到的所有智能语音应用只是基本的车内控制（车窗、空调），查天气等，这些功能远没有手机的生态丰富。”Cerence产品总监刘峰提出，过去几年语音产品带来的车内体验并没有本质改变。

那用户需要的应用场景是什么，用户体验又如何提升？

刘峰认为，连贯的应用场景和有人文情感的主动交互才是用户真正想要的体验。而Cerence目前做的很多工作都是从用户的问题出发，而不是通过技术去想问题。

比如，用户到底喜欢什么样的交互，愿意用什么样的内容，这些是否可以通过技术解决？

而人与机器理想的交互状态是完全达到自然开放式的交流，目前的技术只能实现“半开放”交流，语音厂商们可以做到的也只是让车“感觉起来”很智能。

一、完全智能，还只是一个“理想”

Cerence目前在做的就是研究用户在车内的行为。“虽然不能做到完全开放式，但是在一定的领域内，也可以实现语音的主动预测。”刘峰表示。

举个例子，用户在车内的语音交互中经常会询问，今天天气怎么样，路堵不堵。“从正常思维角度这是一个很蠢的问题。实际上更多情况下，如果路况不好的话，车机是可以做主动提醒的。”

如果每天都问同类型的问题，机器应该识别这些信息，做出各种主动预判，最后变为个性化的体验。这可能才是用户真正想要的感觉。

刘峰表示，在某固定场景，可以用穷举的方法来预测用户的所有行为模式：“人工智能中有一些概率论的内容，系统会判断哪些概率高，哪些概率低，然后运行一个程序，处理信息，给出使用者一个‘智能’的印象。”

然而，语音体验除了不够“真正”智能外，还有延迟卡顿、自唤醒、理解不到位等情况。

刘峰认为，延迟卡顿包含了很多技术细节问题，比如整套方案是不是本地加云端的混合方案。“目前很多解决方案都是纯云端的。在网络不好的时候肯定是会卡顿的。”

而本地+云端的方案也是有技术难题的，难点就在于判断遇到某种情况时到底应该选择云端解决还是本地解决。

此外，内容提供方的网络延迟也是造成卡顿的原因。所以延迟卡顿是一项综合性的问题。目前，Cerence在做的很多努力都是本地+云端融合的方案。

“现在边缘计算越来越强大。我们可以把本来需要在云端处理的事情放在本地处理，包括内容预先的预测以及提醒。”刘峰认为，这也是保证语音交互做到不卡顿的关键所在。

唤醒则是另外一个问题，它与误唤醒是一对矛盾的存在体。Cerence目前着重要做的是寻求唤醒与误唤醒之间的平衡，而非单纯提高唤醒度。

比如，车辆开窗在高速公路上行驶时如何提高唤醒度。在车窗关掉，车内变安静时，如何降低误唤醒率。目前来讲，实现二者的平衡也是一个难点。

此外，唤醒的关键也在于声音信号是否具有很好的处理能力。刘峰表示，“在这方面，Cerence在业界是做得最强的，因为我们是用纯软件解决方案，而其他友商可能会用硬件解决方案，比如降噪芯片。”

软降噪的方案在部署上更加灵活，直接利用现有的计算处理能力即可，无需增加新的硬件和电路设计。

而在对话方面，刘峰认为目前自然语言理解在整个行业是比较成熟的，而所谓多轮对话才是真正难做的。

实现多轮对话有两种方式。一种是真正开放式的多轮对话(目前为止还没用很好的解决方案)，另一种是用预判断，也就是Cerence与谷歌都在用的方法。

而这种方法是语音交互工程上的处理，换句话讲就是让多轮对话作为一种达到某种目的的对话，即：Task Oriented Dialgue。

比如，车主要买咖啡，系统通过数据知道他喜欢星巴克，又知道他经常喝拿铁，那么系统就会用一步步的方式引导车主说出结果。这非常像AI客服里设置的话术，并不是真正的开放式回答。

目前人工智能的水平还处于监督式学习的阶段。即输入数据（A）然后快速生成简单的回应（B）来完成。比如语音识别就是用大量声音片段进行人工标注，训练机器转译成文本，之后当再给机器新的声音时，它才能正确把语音转换文本。

与之相对的是无监督学习，这其中最大的技术难点就在于知识图谱。

人的大脑是可以记住知识图谱的，而让计算机解决知识图谱却是业界难题，这需要把所有的关系全部穷举。但首先硬件的计算能力目前是做不到的，穷举人类的所有知识，这本身就是个难题。

而在知识图谱难题解决之前，实现所谓的全双工对话与完全智能只能是一种理想。

二、用软件定义汽车

作为一家纯软件的公司，Cerence一直在考虑这个问题，怎样让用户可以更快地在不改变硬件的情况下实现车辆的“升级”。

刘峰提出，软硬件本身是一种结合体，而生产降噪芯片的厂商也有很多，对于一些低端或中低端的使用很方便，把芯片装上去就可以直接用。但如果硬件（如：DSP）不支持的话，那么在出厂后就不可能使用OTA的方式将其更新到最新的模型。

而多模态及语音识别目前还在不断地发展过程中，还有新的场景出现，所以硬件对于软件化的支持能力非常关键。这也是在芯片层面上需要解决的问题。

“我个人并不赞同用一块完整的AI芯片去完成一个专门的任务。技术发展了，软件更新的问题怎么办？这也是Cerence一直在思考的一个问题。”刘峰表示，Cerence的软件与硬件厂商有一定的解耦：挑选出优质的芯片方案，再与自身软件去做结合。

“如果讲到战略的话，其中有一块我们很看重，就是软件如何定义车里的体验。” 刘峰表示，目前普遍的情况是一辆车出厂之后一年都没有OTA，两年都没有任何更新。而Cerence正在做这方面的改进。

三、多模态功能量产，需要时间

对于用户体验，Cerence看重的不仅是语音可以“懂”人，还可以与车内的仪表、主机、灯光等部件全方位互动。

比如，当看到一些灯光闪烁的提示时，就代表语音要开始播报信息，这种形式更加人性化。这也是Cerence设计的UX交互中多模态的一种形式。

在今年初的美国CES展上，Cerence也展示了最新的多模态技术集成版本，由语音、眼神、手势构成全程交互的车内控制。

“我们讲的手势并不是手势控制，而是当你在说一个对话，或者用一个眼神的同时，做了什么样的手势。这是一种自然的对话行为。并不是用简单固定的手势去做命令。”

在刘峰看来，真正的多模态是眼神手势语音等状态的结合，也是多种传感器与输出装置（包括灯光闪烁、提示音、语音播报、震动等）融合的应用。

另外，传感器除了结合语音和视觉，还要结合压力传感器来判断人是坐在主驾还是副驾上；或者结合雨水传感器来判断外面的天气。“只有把车内车外的所有传感器融合在一起才能实现真正的多模态输入。”

而作为一家软件公司，Cerence看待量产多模态产品的瓶颈，在于降低硬件成本。“等硬件成本降下来，我们会结合各芯片厂商的优势去做不同的软件适配。”

而目前，Cerence已完成了具备多模态功能的Demo car，可以做到指哪问哪。但该功能的量产，需要3D高精度地图支持，所以，技术到真正落地也需要时间。

四、本地+云端方案

Cerence在汽车领域有着多年的积累，其中最重要的优势之一是边缘计算能力，以及边缘与云的结合。

另一个优势则在本地端。刘峰表示，“目前大家对于智能网联的一个误解是觉得屏幕越多越好，而Cerence的概念是如何让车本身有智能，哪怕一块屏幕都没有。”

比如，《变形金刚》里的大黄蜂只用一个破烂的收音机就可以与女主畅通无阻地交流。套用现实中特斯拉的例子，在Model 3 中，即使去掉车内所有的屏幕，车依然是智能的车。

所以，Cerence目前要做的就是改变对于车内交互智能化的定义。接下来要和车厂合作与推进的就是使每一辆车在出厂的时候都带有智能。

在云端方面，Cerence更倾向于开放合作的模式,也将助力整车厂在新的一轮智能网联的转型中获得新的利润空间。

目前的车市情况不容乐观，而寻找新的赢利点也是多数车厂在考虑的事情。

刘峰认为，盈利点的实现靠两件事，首先汽车本身是否具备软件定义的价值。其次是平台如何运营，是否足够开放。

针对这两点可以看到每家主机厂目前都在做大量的投入与尝试，但主机厂在与互联网公司或内容提供商谈合作的过程中也会遇到选择难题。

Cerence的解决方案是根据用户的喜好进行选择。比如用户本身就有网易云的会员账号，那么他要听的音乐就应该自然而然地导流到网易。体现的价值是给车厂提供好的工具去面对快速变化的市场。

在盈利模式方面，Cerence公司当前还是以传统的收取License的模式为主。但未来会逐步往SaaS的模式去转换。因为真正需要车载语音或软件服务的并不是汽车公司，而是消费者。

SaaS模式可以为车厂提供高可用性、高可配置性、功能服务的高扩展性，用于组合出各种销售模式提供给最终用户。用户完全可以根据自己的需要进行按需选购。

刘峰表示，未来，我们也会看到更多的SaaS模式出现。

继续阅读

阅读原文