摘要:
提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG, 辅助启发式词语抽取方法, 实现从汉文和藏文新闻文本中抽取年度新词, 共抽取到2022年度汉文新词606个, 藏文新词664个。该方法能够减少人工筛选工作量, 并显著地提高新词抽取的效率。与《中国语言生活状况报告2023》发布的2022年度汉文新词相比, 该方法抽取的新词在数量和语种方面优势明显。此外, 对汉文和藏文新词进行对齐, 并从新词的发展和使用状况角度开展案例分析。
庞仙, 陈波, 赵小兵. 面向新闻文本的汉藏新词抽取及分析[J]. 北京大学学报(自然科学版), 2025, 61(1): 45-52.
PANG Xian, CHEN Bo, ZHAO Xiaobing. Extraction and Analysis of Chinese-Tibetan New Words from News Texts[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(1): 45-52.