新一代 Kaldi - 移动端语音识别
简介
本文属于演示性质。希望通过四个视频向大家展示我们最近的进展:支持在手机上使用新一代
Kaldi
进行实时的语音识别。具体的实现细节,比如模型训练、模型转换、如何构建一个安卓
app
等, 请参考如下文档:https://k2-fsa.github.io/sherpa/ncnn/index.html
注 1:所有的代码和模型,我们都开源了出来。希望对大家有帮助的同时, 也能吸引更多的人参与进来,让我们携手一起开发。
注 2:所有识别都在本地完成,不需要网络连接。
下图展示了我们构建的
apk
所包含的详细内容。大家可以看到,我们的
runtime
(动态库)合计不超过 1.6 MB
。 apk
中绝大部分都是由预训练模型组成。如果大家也想在自己手机上尝试本文的视频,可以从下面两个 地址下载我们提供的
apk
安装包:1. CPU 版本,支持 Android >= 5.0
https://huggingface.co/csukuangfj/sherpa-ncnn-apk/resolve/main/2022-12-17-mixed-english-chinese-sherpa-ncnn.apk
2. GPU 版本,支持 Android >= 7.0 (使用 Vulkan)
https://huggingface.co/csukuangfj/sherpa-ncnn-apk/resolve/main/2022-12-17-with-vulkan-gpu-mixed-english-chinese-sherpa-ncnn.apk
演示
下面我们通过四个视频,向大家展示在安卓手机上使用新一代
Kaldi
进行 实时语音识别。1. 纯中文(不带背景噪声)
2. 中文 + 英文(不带背景噪声)
3. 中文 (小猪佩奇节选,带背景噪声)
4. 中文诗词 (带背景音乐)
总结
本文向大家展示了在安卓上使用新一代
Kaldi
进行实时语音识别。我们开源了所有的代码和模型。关于移动端的语音识别,我们还有以下若干未完成的事项:
- • (1)使用 ncnn[1] 的
int8
进行计算 - • (2)支持更多的平台,如
iOS
等 - • (3)在不降低准确度的情况下,训练更小、速度更快的模型
- • ... ...
如果你也感兴趣,欢迎你提交
pull-request
。往期文章
本文出品:新一代 Kaldi-NGK 编辑部 撰文:蛋哥的 csukuangfj
引用链接
[1]
ncnn: https://github.com/tencent/ncnn最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。