汉语韵律边界定位与选音算法研究

北京大学学报（自然科学版）

汉语韵律边界定位与选音算法研究

程勇, 吴玺宏, 迟惠生

北京大学信息科学技术学院智能科学系，视觉与听觉信息处理国家重点实验室，北京，100871；E-mail: {Chengy, Wxh}@cis.pku.edu.cn; Chi@pku.edu.cn

收稿日期:2003-11-17 出版日期:2004-05-20 发布日期:2004-05-20

A Study on Prosodic Boundaries Location and Synthesized Units Selection Algorithms in Mandarin Speech Synthesis

CHENG Yong, WU Xihong, CHI Huisheng

National Key Lab. On machine Perception, Peking University, Beijing, 100871

Received:2003-11-17 Online:2004-05-20 Published:2004-05-20

摘要/Abstract

摘要： 论述了采用统计模型进行汉语韵律层次结构分析和韵律建模的思路，将韵律结构划分为3个基本层级：韵律词，韵律短语和韵律短语群，提出了一种新的基于统计的韵律结构模型。实验表明该模型对韵律词边界的预测准确率和召回率分别达90.37%和92.48%：对韵律短语边界的预测准确率和召回率分别达82.43%和85.59%。同时，描述了一个汉语连续语流语音合成的选音算法，它适用于基于大语料库的语音合成系统。由于同时考虑单音节、二字韵律词、三字韵律词和四字韵律词，从而降低了因拼接点不连续而造成的音质损失，提高了合成语音的自然度。

关键词: 语音合成, 韵律结构模型, 韵律边界, 选音算法

Abstract: A new statistical prosodic structure model is proposed, which is based on the idea of analyzing and modeling of hierarchical stochastic properties of Chinese mandarin, where three basic levels of prosodic structure are divided as: prosodic word, prosodic phrase, prosodic phrase cluster. Meanwhile, synthesized units selection algorithms, which are suited for large-corpus-based speech synthesis, are described and discussed in this paper. The experimental results show that the proposed model is effective and high performance could be obtained.

Key words: speech synthesis, prosodic structure model, prosodic boundary, synthesized units selection algorithm

中图分类号:

TP391

程勇, 吴玺宏, 迟惠生. 汉语韵律边界定位与选音算法研究[J]. 北京大学学报（自然科学版）.

CHENG Yong,WU Xihong,CHI Huisheng. A Study on Prosodic Boundaries Location and Synthesized Units Selection Algorithms in Mandarin Speech Synthesis[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/

https://xbna.pku.edu.cn/CN/Y2004/V40/I3/451

[1]	刘秋慧, 张坤丽, 许鸿飞, 俞士汶, 昝红英. 助词“的”用法自动识别研究[J]. 北京大学学报（自然科学版）, 2018, 54(3): 466-474.
[2]	柯永红, 朱永福, 穗志方, 俞士汶. 基于多特征的语义角色标注一致性计算方法研究[J]. 北京大学学报（自然科学版）, 2018, 54(3): 475-480.
[3]	杨萌, 李培峰, 朱巧明. 一种基于Tree-LSTM的句子相似度计算方法[J]. 北京大学学报（自然科学版）, 2018, 54(3): 481-486.
[4]	张雨, 曾立, 邹磊. 大规模图数据的正则路径查询[J]. 北京大学学报（自然科学版）, 2018, 54(2): 236-242.
[5]	魏星, 王玮, 陈静萍, 解焱陆, 张劲松. 基于发音特征的汉语发音偏误自动标注[J]. 北京大学学报（自然科学版）, 2018, 54(2): 243-248.
[6]	林心宜, 严睿, 赵东岩. 融合词、句层级信息的抽取式摘要优化框架[J]. 北京大学学报（自然科学版）, 2018, 54(2): 229-235.
[7]	周楠, 赵悦, 李要嫱, 徐晓娜, 才旺拉姆, 吴立成. 基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报（自然科学版）, 2018, 54(2): 249-254.
[8]	谭亦鸣, 王明文, 李茂西. 基于翻译质量估计的神经网络译文自动后编辑[J]. 北京大学学报（自然科学版）, 2018, 54(2): 255-261.
[9]	吴焕钦, 张红阳, 李静梅, 朱俊国, 杨沐昀, 李生. 基于伪数据的机器翻译质量估计模型的训练[J]. 北京大学学报（自然科学版）, 2018, 54(2): 279-285.
[10]	吕书宁, 董志安. 利用URL-Key领域术语识别方法[J]. 北京大学学报（自然科学版）, 2018, 54(2): 262-270.
[11]	王文超, 吕学强, 张凯, 周建设. 足球赛事战报的自动写作研究[J]. 北京大学学报（自然科学版）, 2018, 54(2): 271-278.
[12]	应文豪, 肖欣延, 李素建, 吕雅娟, 穗志方. 一种利用语义相似度改进问答摘要的方法[J]. 北京大学学报自然科学版, 2017, 53(2): 197-203.
[13]	栗青生, 徐强, 肖建国, 刘泉, 张解放. 汉字动态生成的结构与风格模型[J]. 北京大学学报自然科学版, 2017, 53(2): 219-229.
[14]	陈玉敬, 吕学强, 周建设, 李宁. NBA赛事新闻的自动写作研究[J]. 北京大学学报自然科学版, 2017, 53(2): 211-218.
[15]	张丽林, 李茂西, 肖文艳, 万剑怡, 王明文. 机器翻译自动评价中领域知识复述抽取研究[J]. 北京大学学报自然科学版, 2017, 53(2): 230-238.