A Study on Speech Recognition for Isolate Words

Acta Scientiarum Naturalium Universitatis Pekinensis

Previous Articles Next Articles

A Study on Speech Recognition for Isolate Words

WU Shuzhen¹, CHENG Qiansheng²

¹Department of Electronics, Peking University, Beijing, 100871; ²School of Mathematical Sciences, Peking University, Beijing, 100871

Received:1999-11-12

一种孤立词语音识别方法研究

吴淑珍¹, 程乾生²

¹北京大学电子学系，北京，100871; ²北京大学数学科学学院，北京，100871

Abstract

Abstract: A speech recognition method is described, that is based on a combination of finite-state vector quantization(FSVQ) and dynamic spectral features. FSVQ is a recallable vector quantization system, which also uses past information for optimizing the code book, and is more effective for speech recognition. The characteristics of a speech signal are represented by time sequences of LPC cepstral coefficients, the dynamic spectral features and log-energy. According to pronunciation feature of Mandarin, the distance values were weighted for the parts of word termination. The experimental results show that the depended speaker speech recognition rate is 98%.

Key words: finite-state vector quantization, LPC cepstral coefficients, dynamic spectral feature, dynamic time warpping, state transition function

摘要： 结合动态谱特性的语音识别研究，阐述了一种有限状态矢量量化(FSVQ)方法。FSVQ利用了过去的信息来选择合适的码本进行编码，对于语音识别更为有效。改进了所使用的语音特征参量，除了LPC倒谱系数外，结合使用了动态谱特征和能量的对数值，并根据汉语发音特征对语音信号端点进行一种加权处理。实验结果表明：与说话人有关的孤立词识别率达到98%。

关键词: 有限状态矢量量化, LPC倒谱系数, 动态谱特性, 动态规整, 状态转移函数

CLC Number:

TN912

WU Shuzhen,CHENG Qiansheng. A Study on Speech Recognition for Isolate Words[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

吴淑珍, 程乾生. 一种孤立词语音识别方法研究[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2001/V37/I1/67

[1]	QU Tianshu,CAO Songwei,WU Xihong. Relationship between Distance and Binaural Cues on Sound Source Localization [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2010, 46(6): 901-906.
[2]	QIU Hong,WU Shuzhen. Research on Noise Compensation for Text-Independent Speaker Identification [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2005, 41(1): 115-121.
[3]	DUAN Xin,HUANG Xinyu,WU Shuzhen. A New Method of Using Pitch Period in Text-Independent Speaker Identification System [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2003, 39(5): 690-696.
[4]	WANG Wei,LIU Feng,WU Shuzhen. A Study for the Application of RASTA on Objective Communication Speech Quality Evaluation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2003, 39(5): 697-702.
[5]	WU Shuzhen,FENG Chenglin,HUANG Xinyu. Study on Noisy Speech Recognition Methods [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2001, 37(3): 365-370.
[6]	FENG Chenglin,WU Shuzhen. A Study on Noisy Speech Recognition (Linear Predictive Coding Prediction Error) [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2000, 36(5): 665-671.
[7]	HUANG Xinyu,WU Shuzhen. Noisy Chinese Speech Recognition Based on Linear Prediction of One-sided Autocorrelation Sequence [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2000, 36(5): 672-680.
[8]	WU Shuzhen,POLS L C W. A New Measure for Objective Speech Quality Evaluation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 1997, 33(5): 627-632.
[9]	WU Suzhen,WU Ahua. A Study of Parameters on Speaker Recognition and Creation of Speech Database [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 1995, 31(3): 316-322.