2022年1~12月语音合成（TTS）和语音识别（ASR）论文月报

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况。很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。

所有文章语音合成领域统计列表请访问：

http://yqli.tech/page/tts_paper.html

语音识别领域论文统计请访问：

http://yqli.tech/page/asr_paper.html

开源语音数据查询:

http://yqli.tech/page/data.html

如何查找语音资料请参考文章:

https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg

文章统计excel :

https://docs.google.com/spreadsheets/d/11YYOg6i6UXw19_g1JRaXGNhvt1zhG24RgOXCzZlqZGE/edit?usp=sharing

aigc统计：

http://yqli.tech/page/aigc.html

语音合成篇

表一给出具体分类说明。2022年12月的语音合成相关的文章有34篇，相比11月份降很多，但比去年同期增加很多。表二和图2是语音合成的具体方向文章的情况。本月的文章热点主要分布在声学模型、多模态、 speech-to-speech以及声音转换。

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言和多说话人	多语言模型、多说话人模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态	主要搜集talking head文章
声音转换	基于GAN方案和特征解耦方案
S2S	speech-to-speech
其它	基于EEG合成，开源数据， MOS评测以及语音合成的应用

图1 语音合成论文总数

表二语音合成论文分布情况

图2 语音合成论文分布情况柱状图

语音合成的文章列表请访问:

http://yqli.tech/page/tts_paper.html

2022.12月份的文章

https://docs.google.com/spreadsheets/d/11YYOg6i6UXw19_g1JRaXGNhvt1zhG24RgOXCzZlqZGE/edit?usp=sharing

语音识别篇

语音识别的文章分类参照表三说明。图3是语音识别文章总数，本月有38篇，相比11月份减少很多。语音识别的研究方向具体情况参见表4和图4，其中无监督、speech translation以及多模态较多些。

表三语音识别分类说明