摘要: 针对几百小时粗标注大语料库, 提出一种新颖的语音合成系统构建方法。首先, 借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。 然后, 为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题, 优化了传统的训练流程, 在不损失声学模型准确性的前提下, 显著提高了模型的训练速度。主观实验表明, 与具有精标注的小语料库相比, 引入粗标注的大语料库可以带来0.5分左右的MOS提升。
中图分类号:
于延锁,朱风云,李先刚,刘翼,吴玺宏. 面向大语料库的语音合成方法研究[J]. 北京大学学报(自然科学版).
YU Yansuo,ZHU Fengyun,LI Xiangang,LIU Yi,WU Xihong. Research on Speech Synthesis for Large-Scale Corpora[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.