A Parallel Training Research of Chinese Part-of-Speech Tagging CRF Model Based on MapReduce

Acta Scientiarum Naturalium Universitatis Pekinensis

Previous Articles Next Articles

A Parallel Training Research of Chinese Part-of-Speech Tagging CRF Model Based on MapReduce

LIU Tao, LEI Lin, CHEN Luo, XIONG Wei

College of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073;

Received:2012-05-30 Online:2013-01-20 Published:2013-01-20

基于MapReduce的中文词性标注CRF模型并行化训练研究

刘滔,雷霖,陈荦,熊伟

国防科学技术大学电子科学与工程学院, 长沙 410073;

Abstract

Abstract: Conditional random field (CRF) model bears a major drawback of low training efficiency for large-scale data processing. A parallel method of conditional random field model training based on MapReduce is proposed to solve the problem. The method designs parallel algorithm for feature selection and parameters estimation of CRF model to achieve a parallel iterative scaling algorithm. Experiments show that the method improves the efficiency and reduces time cost significantly while guaranteeing the training result correctness.

Key words: part-of-speech (POS) tagging, conditional random field (CRF), MapReduce, parallel

摘要： 针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。

关键词: 词性标注, 条件随机场, MapReduce, 并行

CLC Number:

TP391

LIU Tao,LEI Lin,CHEN Luo,XIONG Wei. A Parallel Training Research of Chinese Part-of-Speech Tagging CRF Model Based on MapReduce[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

刘滔,雷霖,陈荦,熊伟. 基于MapReduce的中文词性标注CRF模型并行化训练研究[J]. 北京大学学报（自然科学版）.

Add to citation manager EndNote|Ris|BibTeX

URL: https://xbna.pku.edu.cn/EN/

https://xbna.pku.edu.cn/EN/Y2013/V49/I1/147

[1]	LI Mingjia, SUN Jianbao, XUE Lian, SHEN Zhengkang. Wide-area InSAR Time Series Analysis Technique for Monitoring of Surface Deformation in the North China Plain [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(6): 934-944.
[2]	HAN Shuo, ZOU Lei. A Parallel Algorithm to Answer Shortest Distance on Dynamic Graph [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 112-122.
[3]	JIANG Yong, GAO Dingxue, MAO Xuewen, YUAN Hao, HU Mingming, ZHANG Min, GUO Yongzhao, YI Malan, WU Jiang, XU Nan. Characteristics of Humic Substances in KBD-Affected Region of Changdu, Tibet Based on PARAFAC of Fluorescence [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(4): 717-726.
[4]	ZHAO Ziyu,XU Jin’an,ZHANG Yujie,LIU Jiangming. Japanese Time Expression Recognition and Translation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 180-186.
[5]	LIU Zhen,JIA Song,WANG Yuan,JI Lijiu,ZHANG Xing. Novel Encoding Schemefor Folding and Interpolating ADC [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2009, 45(4): 594-598.
[6]	JIN Jie,YU Dunshan. High-Speed Parallel BCH Decoder Circuit in VLSI [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2009, 45(2): 233-237.
[7]	WANG Huiliang,BAO Shanglian,CHEN Guoyao. Speedup Inverse Treatment Planning Based on Multi-core Parallel Simulated Annealing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2008, 44(6): 853-858.
[8]	ZHANG Guaihong,XIA Mingyao. Analysis of Transient Scattering by Dielectric Objects Using Time Domain Integral Equation Methods with Parallel Computing [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2008, 44(3): 353-358.
[9]	ZHANG Bo . A Mathematical Model for the Parallelogram Method in Ratemaking [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2008, 44(3): 335-338.
[10]	SHENG Xiangzhi,SHAN Baosong. Research and Implementation of GPGPU Accelerated Audio Mixing Algorithm for Multi-Party Collaboration [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2008, 44(1): 49-54.
[11]	ZHAO Yuexi,JIANG Anping. An Effective Parallel Processing Architecture for Deblocking Filter in H.264 [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2007, 43(5): 649-653.
[12]	ZHANG Xin,YU Dunshan,SHENG Shimin. A Novel Latched Comparator with Low Kickback Noise [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2006, 42(5): 681-684.
[13]	XIE Hua,Harald MICHALIK,JIN Shengzhen,AI Guoxia. Improved Application of JPEG2000 to Image Compression on Space Solar Telescope [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2006, 42(3): 366-370.
[14]	CHEN Peng,HUO Jinjian,ZHANG Li'ang. A Constant Time Algorithm for MST on RMESH [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2006, 42(1): 83-88.
[15]	WANG Long. Simulation of Flow around Cylinder with Lattice Boltzmann Method [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2002, 38(5): 647-652.

A Parallel Training Research of Chinese Part-of-Speech Tagging CRF Model Based on MapReduce

基于MapReduce的中文词性标注CRF模型并行化训练研究

PDF

Knowledge

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics