Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect

doi:10.13209/j.0479-8023.2017.154

Acta Scientiarum Naturalium Universitatis Pekinensis ›› 2018, Vol. 54 ›› Issue (2): 249-254.DOI: 10.13209/j.0479-8023.2017.154

Previous Articles Next Articles

Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect

ZHOU Nan, ZHAO Yue^†, LI Yaoqiang, XU Xiaona, CAIWANG Lamu, WU Licheng

School of Information Engineering, Minzu University of China, Beijing 100081

Received:2017-05-31 Revised:2017-09-05 Online:2018-03-20 Published:2018-03-20
Contact: ZHAO Yue, E-mail: zhaoyueso(at)muc.edu.cn

基于瓶颈特征的藏语拉萨话连续语音识别研究

周楠, 赵悦^†, 李要嫱, 徐晓娜, 才旺拉姆, 吴立成

中央民族大学信息工程学院, 北京 100081

通讯作者: 赵悦, E-mail: zhaoyueso(at)muc.edu.cn
基金资助:
教育部人文社会科学规划基金(15YJAZH120)和中央民族大学双一流学科建设项目资助

Abstract

Abstract:

The bottleneck features extracted from deep neural network not only have long term contextdependence and compact representation of speech signal, but also can replace the traditional MFCC features for GMM-HMM acoustic modeling. The authors apply bottleneck features and their concatenated features with MFCC into Lhasa-Tibetan continuous speech recognition. The experiments in Lhasa-Tibetan continuous speech recognition show that the concatenated features of bottleneck features and MFCC achieve better performance than the posterior features of deep neural network and mono-bottleneck features.

Key words: Lhasa-Tibetan, continuous speech recognition, GMM-HMM, bottleneck features, deep neural network (DNN)

摘要：

基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点, 将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中, 可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明, 瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。

关键词: 藏语拉萨话, 连续语音识别, 高斯混合–隐马尔科夫模型, 瓶颈特征, 深度神经网络

CLC Number:

TP391

ZHOU Nan, ZHAO Yue, LI Yaoqiang, XU Xiaona, CAIWANG Lamu, WU Licheng. Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 249-254.

周楠, 赵悦, 李要嫱, 徐晓娜, 才旺拉姆, 吴立成. 基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报（自然科学版）, 2018, 54(2): 249-254.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/10.13209/j.0479-8023.2017.154

https://xbna.pku.edu.cn/EN/Y2018/V54/I2/249

[1]	LIU Qiuhui, ZHANG Kunli, XU Hongfei, YU Shiwen, ZAN Hongying. Research on Automatic Recognition of Auxiliary “DE” [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 466-474.
[2]	KE Yonghong, ZHU Yongfu, SUI Zhifang, YU Shiwen. A Method for Semantic Roles Labeling Consistency Calculation Based on Multi-features [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 475-480.
[3]	YANG Meng, LI Peifeng, ZHU Qiaoming. An Approach of Sentence Similarity on Tree-LSTM [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(3): 481-486.
[4]	ZHANG Yu, ZENG Li, ZOU Lei. Regular Path Queries on Large Graph Data [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 236-242.
[5]	WEI Xing, WANG Wei, CHEN Jingping, XIE Yanlu, ZHANG Jinsong. A Study of Articulatory Features Based Detection of Mandrain Pronunciation Erroneous Tendency for Automatic Annotation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 243-248.
[6]	LIN Xinyi, YAN Rui, ZHAO Dongyan. A Hybrid Optimization Framework Fusing Word- and Sentence-Level Information for Extractive Summarization [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 229-235.
[7]	TAN Yiming, WANG Mingwen, LI Maoxi. Neural Post-Editing Based on Machine Translation Quality Estimation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 255-261.
[8]	WU Huanqin, ZHANG Hongyang, LI Jingmei, ZHU Junguo, YANG Muyun, LI Sheng. Training Machine Translation Quality Estimation Model Based on Pseudo Data [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 279-285.
[9]	Lü Shuning, DONG Zhian. Domain Term Extraction Using URL-Key [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 262-270.
[10]	WANG Wenchao, Lü Xueqiang, ZHANG Kai, ZHOU Jianshe. Research on Automatic Writing of Football Game News [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2018, 54(2): 271-278.
[11]	Wenhao YING, Xinyan XIAO, Sujian LI, Yajuan LÜ, Zhifang SUI. Improving Query-Focused Summarization with CNN-Based Similarity [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 197-203.
[12]	Qingsheng LI, Qiang XU, Jianguo XIAO, Quan LIU, Jiefang ZHANG. A Structure and Style Model for Chinese Character Dynamic Generation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 219-229.
[13]	Yujing CHEN, Xueqiang LÜ, Jianshe ZHOU, Ning LI. Research on Automatic Writing of NBA Sports News [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 211-218.
[14]	Lilin ZHANG, Maoxi LI, Wenyan XIAO, Jianyi WAN, Mingwen WANG. Improve Automatic Evaluation of Machine Translation Using Specific-Domain Paraphrase [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 230-238.
[15]	Li DONG, Zhongqing WANG, Deyi XIONG. Stock Index Prediction Based on Text Information [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 273-278.

Study on Continuous Speech Recognition Based on Bottleneck Features for Lhasa-Tibetan Dialect

基于瓶颈特征的藏语拉萨话连续语音识别研究

RichHTML

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics