开源上新｜FunASR英文离线文件转写软件包发布

FunASR是由阿里巴巴智能计算研究院语音实验室开源的语音识别框架，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署。

今年7月初，FunASR开源社区发布了离线文件转写软件包，实现了高精度、高效率、高并发的长音频离线文件转写，并在8月份发布了支持实时语音听写软件包，既可以实时地进行语音转文字，而且能够在说话句尾用高精度的转写文字修正输出。

本月，FunASR特推出英文离线文件转写软件包。该软件包结合了阿里巴巴智能计算研究院语音实验室在Modelscope社区开源的语音端点检测、语音识别、标点断句等模型，支持模型的ONNX导出与量化，并提供了可方便快捷的部署到本地或者云端服务器的一键化部署脚本。开发者可以基于该软件包，便捷地构建高精度、高并发、高效率的英文离线文件转写服务。

图1 FunASR英文离线文件转写服务架构图

最新发布，体验下载👉FunASR英文离线文件转写软件包：

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md

（8月发布）FunASR实时语音听写软件包：

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md

（7月发布）FunASR离线文件转写软件包：

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md

‍▎英文离线文件转写软件包‍‍‍‍

>>>便捷部署

FunASR社区提供了英文离线文件转写软件包一键部署方案，开发者可以通过funasr-runtime-deploy-offline-cpu-en.sh一键完成docker安装、镜像启动、服务部署，详见英文离线文件转写服务便捷部署教程：https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_en_zh.md

>>>高精度

FunASR软件包集成了阿里巴巴智能计算研究院语音实验室在ModelScope开源的，采用海量数据训练的工业级语音识别模型Paraformer-en，保证了端到端转写效果的精度。下方表格对比了Paraformer-en模型与Whisper模型的识别效果与推理效率：

表1 Paraformer-en与Whisper推理速度与识别效果对比

Paraformer-en模型与Whisper-small-en模型相比，参数量相近，Whisper受益于68+万小时训练数据，相比于Paraformer-en模型5万小时训练数据，识别效果有一定优势（学术集差距在相对10%左右，工业集差距相对4%）。Paraformer模型受益于其非自回归结构，计算效率优势较大，相比于同参数量的Whisper-small-en模型，推理速度提升10倍以上，对于服务部署更加友好。

注：

RTF测试GPU机器V100，CPU机器为Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz；
funasr已经支持whisper模型，上述表格可以通过funasr快速进行测试。

>>>高推理效率‍‍‍‍‍‍

FunASR软件包中的语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)模型均通过onnx 量化导出实现推理加速，其中ASR模型为基于Paraformer的非自回归模型，相比于目前普遍采用的自回归模型具有明显的推理效率优势，可同时支持多线并发，可以准确、高效的对音频进行转写。我们采用Librispeech test_clean测试集测试了软件包的转写加速比，CPU8369B上的吞吐率为448，即每小时可以推理448小时音频。

不同配置下的详细吞吐率指标如下表：

表2 FunASR英文离线文件转写软件包性能测试

注：测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni

更多详细结果详见benchmark👇:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/benchmark_onnx_cpp.md

>>>长音频链路

FunASR软件包提供了一套完整的语音识别链路，包括语音端点检测(VAD)、语音识别(ASR)、标点断句(PUNC)，可用于高效转写长音频，无需用户进行二次开发。我们在一个长音频测试集上(时长为0~24min)分别对asr链路、vad+asr+punc链路进行了测试，asr链路在并发32线时会OOM，vad+asr+punc链路的吞吐率为334，相比asr链路有明显优势。

不同配置下的详细吞吐率指标如下表：

表3 FunASR英文离线文件转写软件包长音频输入性能测试

注：测试机器为 Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz 16core-32processor with avx512_vnni

‍▎软件包安装使用指南

精简操作，即刻安装，FunASR软件包当前已开源。

开源软件包包地址👇：

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/readme_cn.md

>>>步骤：

第一步：下载安装部署工具

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-offline-cpu-en.sh

第二步：安装部署

sudo bash funasr-runtime-deploy-offline-cpu-en.sh install --workspace ./funasr-runtime-resources

第三步：测试与使用

运行上面安装指令后，会在./funasr-runtime-resources下载samples，为客户端测试工具，支持python/c++/java/html网页等语言。支持多种音频格式输入（.wav, .pcm, .mp3等），也支持视频输入(.mp4等)。

我们以html网页版本client为例，进行说明：在浏览器中打开samples/html/static/index.html，出现如下页面，输入部署服务器ip与端口号后，可以直接进行体验。

图2 html网页客户端体验

同时我们在云端部署了FunASR实时语音转写服务，用户可以直接在浏览器中进行体验：

英文离线文件转写：https://101.37.77.25:1332/static/index.html

离线文件转写(热词模型)：https://101.37.77.25:1335/static/index.html

离线文件转写(时间戳模型)：https://101.37.77.25:1334/static/index.html

实时语音听写：https://101.37.77.25:1336/static/index.html

点击阅读原文，下载英文离线转写软件包👇

永久福利直投简历

简历投递：[email protected]

扫码关注我们

助力AI语音开发者的社区

继续阅读

阅读原文