今天我们来聊聊语音输入法,其实语音输入法已经不是新鲜玩意儿了,只不过前两年被锤子的老罗在发布会上引爆了一波,大家才意识到,原来语音输入的实用程度早已今非昔比了。
手机平台的语音输入法也有很多家产品,那么到底哪一家最好用呢?
好不好用的标准对每一个用户可能都不一样,但对于输入法来说,有一点是绕不开的,那就是识别准确率。如果识别率不高,哪怕产品设计做的再棒,UI 逼格再高,都是舍本逐末然并卵。
所以,今天不谈别的,我们就来看看到底哪款语音输入法最准确,关注黑哥比较久的小伙伴们应该知道,之前我也写过一篇关于 OCR 的对比评测《到底哪款 OCR 软件识别率最高?免费版居然表现最佳?》今天也按之前的实验框架来测试。
温馨提示:本文较长,嫌长的可以直接拉到最后看结果,只不过你会错过一个有趣的过程。
一、评测准备
本次选中的是百度输入法、讯飞输入法、搜狗输入法、微信自带的语音输入,前三家属于主流输入法,之所以在评测中加上微信的语音输入功能,是因为这个用户量也非常巨大,所以一起进行测试。
1.参评软件版本号:
百度输入法: iOS 版 8.0 版本
讯飞输入法: iOS 版 8.0.2058 版本
搜狗输入法: iOS 版  5.3.5 版本
微信语音输入:微信  iOS 版 6.7.0 版本
2.校对软件:Word 2016+人工统计
简单介绍一下校对过程,在 Word 2016 里面打开审阅标签,选中对比,即可对原文本与目标文本进行对比。中间为校对区,右上为软件识别文本,右下为原稿。
实际过程中发现由于 Word 对比出来的修订数是以词语或句子为单位的,不能做到十分精确,如图所示,当连续的整句或一个词组识别错误时,它只统计为 1 处错误,所以只看修订数并不准确。
在尝试了大量校对统计工具后,始终没有办法找到以字符为单位的对比工具,无奈之下,为了确保实验结果准确,所以黑哥只有以单个字符、标点为单位,一个一个自己数出来的。
这项工作,就花了一天时间,所以趁手的工具对需要的人来说,真的很重要,如果大家有好的工具一定推荐给我!本次评测最终的数据以手动统计为准, Word 对比统计的修订数仅做参考。
3.实验设计
在实验中,为了确保原始音频文件一致,输入的语音都是提前录好同一段语音素材,然后在同一个手机上使用不用输入法进行实验,尽可能降低误差率。
但实际过程中,由于语音输入目前均采用云端识别,影响准确率的因素较多,即使在确保所有外在条件都一致的情况下,多次测试仍会得出不同的识别结果。
从统计学意义上说,为了降低误差,保证测试结果的稳定性,应该多次测试然后取平均值在参与对比,但受限于精力时间,我们只以单次为准,并且只测试云识别,不测试离线环境,有兴趣的小伙伴可以参考我这个实验模型,自己测试一下。
同时,在实验测试结果中,对错误特征进行分类,如文字字符错误、标点错误、数字错误、英文单词大小写错误等等。
之所以进行分类,是为了更加准确地体现出识别的准确率。如果文字错误、单词错误属于识别错误,影响阅读与理解,这些字符错误的系数定为 1
如果是标点符号这类错误,不影响阅读与理解,但仍需要后期校对修改,这些标点错误的系数定为 0.5
如果是英文大小写错误和未空格错误等其他错误,属于识别正确拼写错误的范畴,所以把这些统一归为其他错误,其他系数定为 0.2
最终准确率的计算方法:(总字符数-错误数×对应系数)/总字符数
二、普通话极致水平下测试
首先,我的思路是想测试一下语音输入法在识别时能够达到的上限,也就是尽可能降低误差,尽可能达到理想化实验环境,那么就要求普通话必须最标准。
在这个星球上,普通话说得最标准的是谁呢?我觉得除了新闻联播的播音员没有别人了吧?
所以第一项测试我们就以新闻联播的口播新闻语音为测试样本。
选取的是 7 月 12 日北约峰会期间美欧再起争执这条新闻,文字共 441 个字符。
测试结果:
1.百度输入法    
2.讯飞输入法    
3.搜狗输入法
4.微信语音输入
将数据录入表格后,综合结果如下:
结果分析:
在该项对比中,字符出错最少的居然是微信输入,有些出乎意料,包括语音输入法常见的谐音错误、丢字错误等方面,微信语音输入都控制得比较好;
标点错误也是常见错误,该环节搜狗表现最佳,仅有 15 处错误,应该是得益于搜狗在智能输入法领域,特别是对上下文语义分析的多年积淀;
在数字规范拼写等其他错误方面,搜狗同样犯错最少,仅有 1 处出错,(原文:8,识别稿:八)。除此之外,对于日期、百分比等这些数字的规范书写都非常准确。
其他 3 家均有不同程度的犯错,特别是微信输入,竟错有 11 处之多。
这些错误都非常可惜,都是属于识别正确但拼写错误的,如果微信输入在数字规范书写环节注意改进的话,是很容易提升准确率的。
在普通话极致水平测试中,准确率排列:搜狗输入法 > 微信输入 > 讯飞输入法 > 百度输入法
三、普通话一般水平下测试
第二项测试,我选取了一段《人民的名义》台词口播录音进行测试,因为这些台词比较口语化,更贴近日常的使用场景,黑哥的普通话二级甲等,不算好也不算差,算个中游水平吧。
测试结果:
1.百度输入法
2.讯飞输入法
3.搜狗输入法
4.微信语音输入
综合结果如下:
结果分析:
出乎意料的是,在第一项测试中字符错误表现最好的微信语音输入和讯飞在该项表现不佳,出错次数最多,出现了大量丢字错误,反观百度和搜狗则在多处后两者未能识别的情况下正确识别,逆袭成功。
标点符号方面,百度依然表现不佳,讯飞在该环节表现最好,搜狗和微信表现接近。
至于数字拼写等其他方面,由于样本中数字较少,所以未能体现出各家之间的区别。
在普通话一般水平识别中,准确率排列:搜狗输入法 > 百度输入法 > 讯飞输入法> 微信输入
四、中英文混合输入
中英文混合输入虽然在日常使用中适用的场景较少,但如果语音输入法要革掉键盘录入的命的话,这就是个绕不过去的槛,像黑哥这样的科技号在日常写作中会大量夹杂英文单词,所以也把这个加入到本次评测中,同时也是对语音输入法在复杂录入环境中的一次极限测试。
选用的中英文输入文本节选自苹果官网的一篇新闻报道:
FaceTime 通话功能改变了我们沟通和分享重大时刻的方式。现在,有了 Group FaceTime 通话功能,多人同时聊天变得既简单又轻松。 你可随时添加参与者,如果对话还在继续,可选择稍后加入,并可选择通过 iPhone、iPad 或 Mac 使用视频或音频加入聊天,甚至可通过 Apple Watch 使用 FaceTime 通话的音频功能加入其中。  
测试结果:
1.百度输入法
2.讯飞输入法
3.搜狗输入法
4.微信输入
综合结果如下:
结果分析:
在该项测试中,讯飞和微信输入远远将百度和搜狗落在了身后,字符基本上都能够识别正确,只不过在大小写输入方面还存在部分问题,讯飞将英文单词之间都留有空格,带来的问题则是部分专属名字加了多余的空格,如 FaceTime 错误写成 face time。
而微信输入则是另一个极端,所有的英文单词之间都没有留有空格,但这两者的英文单词识别率轻松碾压前两者。
百度的表现其实也算不错,错误特征和微信输入较为接近,同样没有在单词之间预留空格,识别率稍逊于微信和讯飞。
必须要说的是搜狗,很奇怪我连续三次识别都没能完整录入整段文字,每次在最后一句就卡住,停止录入,只能以这个结果进行对比,实际上搜狗对已录入的英文识别率几乎为 0。
标点错误数方面,四种输入法基本相当,没有明显差距。
在中英文场景中,准确率排列:讯飞输入法 > 微信输入 > 百度输入法 > 搜狗输入法
五、综合对比
综合统计结果,将3项测试结果的准确率相加求平均值,最终统计结果如下:
最终的准确率排序为,讯飞输入法 > 微信输入 > 百度输入法 > 搜狗输入法
评判语音输入法的方法其实标准并不统一,本次评测设计了一种近乎严苛的方法来进行实测对比,但不论怎么对比,最终都是围绕着一个终极标准,那就是:在后期编辑校对时,需要修改调整最少的则为赢家
这也就是本次评测对标点、空格等因素也考虑进来,毕竟这些都是需要人工进行修正的。
由于条件精力有限,虽然评测设计充分考虑控制误差,但受客观条件的制约,并不意味着评测绝对科学,一定存在着设计不完善之处,包括主观方面系数的比重是否合适。
也欢迎感兴趣的小伙伴可以联系我,一起做这方面的测试,我真的需要有人来帮我。
但本次测试还是能够给大家带来一些参考价值,至少目前,我还没有在网上搜索到这些输入法错误特征的细节分析,我想,这就是这篇我花了 3 天时间,用写论文的态度来完成这次评测的价值所在。
六、结语
我知道这篇已经严重超长了,索性再啰嗦两句,诚如上文所提,做这些的测试很可能又是一个吃力不讨好的事,比如太长不看系列。
黑哥一向只想推荐最好的工具给大家,但是怎么判断好用不好用,总得有依据对吧,空口白牙,口说无凭。不怕不识货,就怕货比货,抛开对比来说谁更好用,都是耍流氓,所以这就是我写这篇评测的初心。
有时候我也在思考,需要这么认真吗?真的有意义吗?
但最终的答案是:我就是热爱,我就是认真
当然,这些也都需要大家的认可和鼓励,所以如果大家认可此类文章的价值以及我的认真态度,就请大家多扩散转发、点赞、打卡,如果大家确实对此类文章无感,也请评论留言告诉我。
最后,公布一下上篇文章邀请码的中奖者,请以下评论作者联系我:
好了,不说了,这篇写完,容我回血两天
备用号:科技灯下黑  kjdxh8
Telegram 群t.me/wldxh
6 号 QQ 群:581505361
继续阅读
阅读原文