北京大学学报(自然科学版) 第61卷 第1期 2025年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 61, No. 1 (Jan. 2025)
doi: 10.13209/j.0479-8023.2025.001
国家社会科学基金重大项目(22&ZD035)资助
收稿日期: 2024–01–17;
修回日期: 2024–06–30
摘要 提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的 TopWORDS 算法和分词工具 PKUSEG, 辅助启发式词语抽取方法, 实现从汉文和藏文新闻文本中抽取年度新词, 共抽取到 2022 年度汉文新词 606 个, 藏文新词 664 个。该方法能够减少人工筛选工作量, 并显著地提高新词抽取的效率。与《中国语言生活状况报告 2023》发布的 2022 年度汉文新词相比, 该方法抽取的新词在数量和语种方面优势明显。此外, 对汉文和藏文新词进行对齐, 并从新词的发展和使用状况角度开展案例分析。
关键词 新闻文本; 汉文; 藏文; 新词抽取
新词抽取指从给定的大量文本中提取符合新词界定的词语。作为自然语言处理领域的一项重要任务, 新词抽取对多项下游任务有积极促进作用, 特别是严重受限于未登录词的任务, 如分词、命名实体识别和机器翻译等。不同语种的新词抽取可以为语言学学科的相关研究和工作提供帮助, 如提取的汉藏新词, 能为汉、藏词典的修订提供依据, 可应用于汉藏语言接触、语言演变和发展趋势研究, 也可服务于汉、藏新词术语审定工作的选词和翻译, 还可用于汉、藏新词的规范化、标准化、信息化以及监测与发布。
新词抽取是一项极具挑战性的任务, 主要体现在 3 个方面: 1)词语边界不清晰。汉文和藏文的词与词之间都没有明确的划分, 词语边界模糊; 2)新词几乎都是未登录词, 现有的有监督的机器学习模型的训练效果都不理想[1]; 3)新词的确定有严苛的标准, 不仅需要上下文语境, 还需要大量的历时语料, 并且有一定的主观性。
新词抽取方法可分为基于规则的方法、基于统计量的方法和基于机器学习的方法。
基于规则的方法就是专家根据新词的构词特征或词形特征, 构建规则库、专业词库和模式库, 然后通过规则匹配发现新词。邹纲等[2]提出针对网页自动检测新词的方法, 根据构词规则对自动检测的结果进一步过滤; 姜如霞等[3]提出基于新词结构制定规则和 N-Gram 方法的中文新词识别方法; 才智杰[4]基于规则提出还原法来识别藏文自动分词中的紧缩词。这类方法需要专家通过人工定义规则, 抽取的新词也受限。
基于统计量的方法主要是通过计算所有候选词语的互信息和左右邻接熵来过滤非词语, 其中互信息用来衡量词内部结合度, 左右邻接熵用来确定词语边界。李文坤等[5]提出基于词内部结合度和边界自由度的新词发现方法。夭荣朋等[6]结合停用词及词典过滤等规则, 提出基于改进互信息和邻接熵的微博新词发现方法。刘伟童等[7]在未切词的微博语料上先从左到右逐字扩展并计算互信息, 得到候选词语, 再利用邻接熵、过滤规则筛选候选词语, 得到新词。这类方法面临的一大问题是效率低下, 它需要对给定的大规模文本中的所有候选连续字串进行统计计算, 特别是左右邻接熵的计算复杂度非常高。
基于机器学习的方法包括无监督的方法和有监督的方法, 其中无监督方法的代表工作是 TopWO-RDS (top-down word discovery and segmentation)[8],
该工作基于单字词典模型(word dictionary model, WDM), 利用 EM 算法迭代计算候选词语成词的概率, 提取的词语中包含很多新词。Chen 等[9]在 Top-WORDS 的基础上提出联合统计模型 D-TopWords, 实现自动提取中文特定领域的两类新词。Pan 等[10]提出基于贝叶斯框架的 TopWORDS-Seg 方法, 实现在开放域中的文本分词和词语发现能力平衡。王巍洁等[11]提出一种融合汉字内在多语义信息与字词外部统计特征的医学新词发现方法。刘清民等[12]提出包含词的热度、上下文关联度、语义完整度和KL 融合度等多特征融合的新词发现算法 MFF。有监督的方法是将新词抽取形式化为序列标注问题, 通过训练序列标注模型进行新词抽取。周霜霜 等[13]提出一种融合人工启发式规则和条件随机场的微博新词抽取方法。色差甲等[1]采用机器学习的方法, 用规则的方式, 将时间词、数词、后接成分算法嵌入 HMM 和最大熵模型中来识别藏文新词。王博等[14]提出一种以大规模神经网络预训练模型为基础, 并结合主动学习以及人工规则的新词识别算法。张乐等[15]引入中文知网和汉字笔画知识库, 提出基于多语义词向量的中文新词发现方法。刘凡平等[16]提出基于 BERT 的开放领域的中文新词识别方法。无监督的方法抽取的词语中包含过多的非新词语; 有监督的方法试图依靠少量的上下文信息提取新词, 与新词的界定存在过大的偏差, 导致真实应用环境下新词抽取的效果不理想。本文方法抽取的是高质量的严格意义上的新词语。
本文提出一种简单而有效的、面向新闻文本的、无监督的汉藏新词抽取方法。利用该方法分别抽取汉文和藏文的 2022 年度新词, 并进行对齐和分析。本文方法属于无监督的方法, 能基于大量未标注文本自动识别词语的边界, 不需要依赖标注语料来学习新词的特征, 可以抽取未登录词, 以自动历时对比为主, 加以少量人工筛选, 可以提取到高质量的新词。
结合语言学领域对新词的定义, 本文将新词界定为能够独立运用、符合语法规范且在一段时间内具有一定使用频率的新形式、新意义和新用法的词。基于此界定, 我们提出一种人工参与最小化的汉藏新词抽取方法。为了有效地抽取年度新词, 先抽取年度词语, 并期望年度词语中尽可能包含全部新词, 同时包含尽可能少的非词语, 前者保障新词抽取的高召回率, 后者保障人工筛选工作量的最小化。将 TopWORDS 与分词工具 PKUSEG[17]相结合, 提取年度词语; 辅以启发式词语抽取方法, 抽取具有新意义、新用法的词语来扩充年度词语; 最后经过少量的人工筛选, 得到最终的年度新词。图 1 以汉文为例, 展示面向新闻文本的新词抽取流程。抽取过程中, 对汉文和藏文新词分别进行独立抽取。主要包括 4 部分: 1)基于 TopWORDS 的大词表获取; 2)结合大词表和 PKUSEG 的词语获取; 3)启发式规则词语获取; 4)新词筛选。
波浪线表示融合方法抽取的词语, 下划线表示启发式方法抽取的词语, 词表中的数字表示词语频次
图1 新闻文本年度新词抽取流程
Fig. 1 News text annual new words extraction process
TopWORDS 是一个无监督的文本分词方法, 在不给定字典, 仅依赖大规模文本的情况下, 通过无监督学习, 同时分割任何给定的汉文文本, 并发现所有词语组合, 即输入文本语料, 输出一个以成词概率排序的词表, 还能够输出对文本语料的分词 结果。
通过分析以成词概率排序的词表, 可以发现排名靠前的词语中, 存在大量非词语, 这将极大地增加人工筛选新词的工作量。因此, 我们利用 Top-WORDS 对原文本语料的分词结果, 构建大词表, 按照词频大于设定阈值的规则过滤部分非词语。虽然词表的质量得到提升, 但此词表依然不能直接作为候选词表, 因为 TopWORDS 方法是无监督的算法, 模型通过 EM 算法迭代收敛, 会导致最终收敛的模型的分词效果不佳, Pan 等[10]的工作也证实了这一点。
本文采用 PKUSEG①https://github.com/lancopku/pkuseg-python作为分词工具。PKUSEG基于条件随机场模型, 具有高准确率、多领域支持、易迁移学习和多领域适应等特点, 支持自定义词典。具体地, 把 1.1 节获得的大词表作为自定义词典输入 PKUSEG 分词工具中, 利用 PKUSEG 对原文本语料进行分词。基于 TopWORDS 获得的大词表中新词和非词语并存, 结合大词表的 PKUSEG, 在分词时能够综合考虑候选词语是否在自定义词典中以及基于分词经验的候选词语是否应该作为词语输出, 然后从 PKUSEG 的分词结果中构建候选词语表, 通过词频, 进一步筛选低频候选词语, 最终的候选词语表中每一个词语是 TopWORDS 算法和PKUSEG 分词工具共同作用的结果。上述词语的抽取以年为单位。至此, 我们得到汉文和藏文的年度 词表。
另外, PKUSEG 在进行中文分词时, 采用默认的训练好的模型, 进行藏文分词时使用第二届少数民族语言分词技术评测藏文分词语料[18]重新训练 PKUSEG 藏文分词模型。
我们尝试利用启发式语言学规则自动抽取词语, 对新词进行扩充。通过对汉藏新闻文本的分析, 发现很多新形式、新意义、新用法的新词带有引号。因此, 本文抽取引号内内容长度小于等于 7 个音节①中文中, 一般一个汉字为一个音节; 藏文中, 音节之间用分隔符间隔, 一个音节相当于中文的一个汉字, 依据分隔符, 按照音节数确定藏文的词长。的所有词语。将抽取的所有词语按词频排序, 考虑到语料的大小, 汉文保留词频≥20 的词语, 藏文保留词频≥5 的词语, 上述词语的抽取也以年为单位, 是对 1.2 节抽取的年度词语的扩充。
通过筛选的方式, 从年度词语中提取出年度新词: 用自动去重的方式, 从年度词语中得到年度候选新词; 用人工筛选的方式确定最终的年度新词。
自动去重: 基于新词的界定, 我们近似地认定当年的年度词语表中的词语没有在往年出现, 才能成为候选新词。汉文语料范围是 2003—2022 年, 藏文语料范围是 2007—2022 年。因此, 汉语的 2022年度候选新词必须不在 2003—2021 的年度词语表中出现, 藏语的 2022 年度候选新词必须不在 2007 —2021 的年度词语表中出现。
人工筛选: 对获取的汉文和藏文年度候选新词表进行分析归类, 发现新词表中包含命名实体、时间词、垃圾字符串和一般词语等非新词, 我们期望通过人工筛选得到高质量的新词表。依据新词界定原则和筛选规则, 汉文词表由语言学专业的汉文母语者筛选, 藏文词表由藏文母语者筛选, 最后得到年度新词表。具体做法是, 过滤掉非完整词, 如“全民健身公共”“ལ་ནད་དཔེ”, 也过滤掉人名、地名、时间和物品等完整的词, 如“黎锦”“ཁུལ་དཔོན་ཀརྨ་ཕུན་ཚོགས (州长嘎玛平措)”, 另外, 藏文若有黏写形式(又称紧缩词), 则删除黏附的黏写形式, 如“ཁ་ཐར་འཛམ་གླིང་བུམ་པའི (卡塔尔世界杯)”中的“འི”。此外, 年度候选新词中, 部分词语属于不完整词语, 其对应的完整词语的音节长度大于 7(我们在抽取过程中考虑到计算复杂度, 将最长词语的音节长度设为 7), 我们根据其完整词语的频次, 有选择地补充得到少量超长新词, 如“国式现代化道路”补全为“中国式现代化道路”, “པེ་ཅིང་དགུན་ཁའི་ཨོ་རྩལ་འགྲན”补全为“པེ་ཅིང་དགུན་ཁའི་ཨོ་རྩལ་འགྲན་ཚོགས (北京冬奥会)”。
本文中汉文语料来源于《人民日报》数字化版。《人民日报》属于新闻语体, 是较正式的书面语, 覆盖领域宽广, 涵纳内容丰富, 符合规范性词典收词的要求[19]。通过爬虫技术获取 2003—2022 年《人民日报》的新闻文本, 语料大小为 2.1GB。藏文语料来源于青海湖网、西藏新闻网、人民网藏文版、中国藏族网通和中国西藏新闻网等网站, 时间范围为 2007—2022 年, 语料大小为 697MB。
使用“TopWORDS+PKUSEG”融合方法和启发式方法抽取年度词语, 并经过去重和筛选, 得到的年度新词如表 1 所示。
通过大词表和自动分词相结合的方法并自动去重, 共获得 4659 条汉文年度候选新词和 12274 条藏文年度候选新词。采用启发式规则扩充词表, 获得1473 条汉文年度候选新词和 2804 条藏文年度候选新词。进行人工筛选后, 获取 606 条汉文新词(其中26 条是补全得到的长词语)和 664 条藏文新词(其中30 条是补全得到的长词语)。
表1 汉藏新闻文本2022年度新词表抽取结果
Table 1 Selected 2022 new words of Chinese-Tibetan news texts
语言年度词年度候选新词年度新词融合方法启发式方法融合方法启发式方法 汉文50000882246591473606 (26) 藏文300003739122742804664 (30)
说明: 括号内数字为补全得到的长词语数量。
表2 汉藏新词抽取实例
Table 2 Examples of extracted Chinese-Tibetan new words
语种前50个新词例词 汉文二十大, 二十大报告, 党的二十大报告, 百年奋斗目标, 党的二十大精神, 中共二十大, 全球安全倡议, 中国化时代化, 工业互联网, 奥密克戎, 社会面, 留抵退税, 新时代十年, 大跳台, 北京冬奥会开幕, 经济社会高质量发展, 第二十次全国代表大会, 五位一体, 统一大市场, 小巨人, 群众急难愁盼, 国家植物园, 新时代10年, 全国统一大市场, 奥密克戎变异株, 大复兴战, 历史主动精神, 中国式现代化道路, 就业优先, 时代之变, 问天, 预制菜, 保供稳价, 宏观经济大盘, 神舟十四号, 个人养老金, 人类文明新形态, 人民共享, 冰墩墩, 乡村振兴局, 非凡十年, 非遗传承, 文化保护, 历史自觉, 中共二十大精神, 佩洛西窜访, 新就业群体, 保通保畅, 减污 藏文ཚོགས་ཆེན་ཉི་ཤུ་པ (二十大), ཚོགས་ཆེན་ཐེངས་ཉི་ཤུ་པ (二十大), ཏང་གི་ཚོགས་ཆེན་ཐེངས་ཉི་ཤུ་པ (党的二十大), རྟགས་མེད་ནད་དུག་འགོས་པ (无症状感染), ཚོགས་ཆེན་ཉི་ཤུ་པའི་དགོངས་དོན (二十大精神), ཏང་གི་ཚོགས་ཆེན་ཉི་ཤུ་པའི་དགོངས་དོན (党的二十大精神), སྒྲོག་འགྲེལ་བ (宣讲员), ས་གནས་ཅན་གྱི་ནད་པ (本土病例), གདགས་གཤིས་ཅན (阳性患者), ནད་རྟགས་མེད་པའི་ནད་པ (无症状感染者), རྒྱུན་རྣམ་ཅན (常态化), ཉིང་སྐྱུར་བརྟག་དཔྱད་བྱེད (核酸检测), ཀྲུང་གོའི་ལུགས (中国式), ཀྲུང་གོའི་ལུགས་ཀྱི་དེང་རབས་ཅན (中国式现代化), ཚོགས་ཆེན་ཉི་ཤུ་པའི་སྙན་སྒྲོན (二十大报告), ཉེན་ཁ་ཆུང (低风险), ཉིང་སྐྱུར་ཞིབ་དཔྱད (核酸检测), ཉེན་ཁ་ཆེ་བའི་ཁུལ (高风险区), རྟགས་མེད་པའི་ནད་འགོས་མཁན (无症状感染者), ཏོག་གསར་གློ་ཚད་རིམས་ནད་སྔོན་འགོག (预防新冠), ཚོགས་ཆེན་ཉི་ཤུ་པའི་འཐུས་མི (二十大代表), ནད་རྟགས་ཐག་ཆོད་པ (确诊), རྒྱང་ལམ་གསར་པ (新征程), ཉེན་ཁ་འབྲིང་བའི་ཁུལ (中风险区), ནད་དུག་འགོས་ཀྱང་ནད་རྟགས་མངོན་མེད་པའི་མི (无症状感染者), ཉིང་སྐྱུར་བརྟག་དཔྱད་བྱས (核酸检测), གདགས་གཤིས་ཡིན་པ (阳性), གཏན་ཕབ་གཉིས (两个确立), གཏན་འཁེལ་ནད་པ (确诊病例), ཏོག་གསར་ནད་དུག་འགོས (感染新冠病毒), ཉེན་ཁ་ཆེ་བའི་ས་ཁུལ (危险地带), གཅིག་བསྡུས་ལོགས་བཀར (集中隔离), བཤེར་རྟགས (健康码), ནད་རྟགས་མི་གསལ་པའི་ནད་པ (无症状感染者), གཏན་འཁེལ་བའི་ནད་པ (确诊病例), ཀྲུང་གུང་ཚོགས་ཆེན་ཉི་ཤུ་པ (中共二十大), ཏང་གི་རང་ངོས་གསར་བརྗེ (党的自我革命), དཔལ་འབྱོར་བརྟན་པོ་ཡོང་བ (稳经济), བརྒྱ་ལོ་གཉིས་པ (第二个一百年), ཚོགས་ཆེན་ཉི་ཤུ་པའི་སྙན་ཞུ (二十大报告), ཏོག་གསར་ནད་དུག་འགོས་པ (感染新冠病毒), འདུ་ཤེས་གསུམ (三种意识), འགོག་སྡོམ་བྱེད་ཐབས (防控措施), དེང་རབས་ཅན་གྱི་མཚོ་སྔོན་གསར་པ (现代化新青海), གཅིག་སྡུད་ལོགས་བཀར (集中隔离), སྐབས་བསྟུན་གཙང་བཟོ (动态清零), ལས་ཐོན་བསྐྱར་ཚུགས (复工复产), འགུལ་རྣམ་གཙང་སེལ (动态清零), ཐཱན་རྩེར་སོན (碳达峰), ཉིང་སྐྱུར་བརྟག་དཔྱད་བྱེད་པ (核酸检测)
表 2 根据新词词频排序, 展示前 50 个实例。可以看出, 汉文新闻和藏文新闻都反映了“二十大”和新冠疫情等新事件、新观念和新制度产生的一系列新词。从领域来看, 包括政治、经济、医学和社会生活等, 汉文和藏文除共同关注的主题外, 还有所差异, 汉文新词关注的主题比藏文更丰富。
对得到的汉藏新词进行词语对齐处理, 即找到互为翻译的汉文和藏文新词。考虑到新词的数量有限, 且藏文新闻一般翻译自汉文新闻, 我们对每一个藏文新词语追溯其来源藏文新闻文本, 通过全网搜索汉文新闻, 定位到藏文句子对应的汉文文本, 从而确定藏文新词的汉文翻译, 实现汉藏新词对齐。我们请两位同时懂汉文和藏文的研究生进行交叉人工对齐。以汉文新词为源语文本, 藏文新词为目标语文本, 共获得 48 个对齐新词, 选取的实例如表 3 所示。
由表 3 可知, 藏文新闻文本中仍然存在用词不统一的问题, 不仅影响理解, 也不利于藏文的规范化、标准化、信息化发展以及信息传播, 同一个汉文词语对应的不同藏文新词的词频统计信息可以为汉藏新词的标准译写提供参考和依据。
表3 汉藏新词对齐实例
Table 3 Examples of Chinese-Tibetan new words alignment
序号汉文例词藏文例词(词频) 1小巨人①གྱད་མི་ཆུང་ཆུང (18), གྱད་མི་ཆུང་བ (5) 2三区三线②ཁུལ་གསུམ་དང་ཐིག་གསུམ (14), ཁུལ་གསུམ་ཐིག་གསུམ (7) 3落地检ཡུལ་དངོས་ཞིབ་བཤེར་དོན་འཁྱོལ (26), ཡུལ་དངོས་སུ་བརྟག་དཔྱད (30) 4场所码གནས་ཡུལ་ཨང་རྟགས (6) 5高质量发展སྤུས་ཚད་མཐོ་བའི་འཕེལ་རྒྱས (3219), སྤུས་ཚད་མཐོན་པོས་འཕེལ་རྒྱས (112) 6跨省通办ཞིང་སྒྲོལ་ཀུན་སྒྲུབ (92), ཞིང་ཆེན་སྒྲོལ་ནས་ཀུན་སྒྲུབ (8), ཞིང་ཆེན་བསྒྲལ་ནས་ཀུན་སྒྲུབ (6)
①指小巨人企业, 是位于产业基础核心领域和产业链关键环节, 创新能力突出、掌握核心技术、细分市场占有率高、质量效益好、极具发展潜力和培育价值、处于成长初期的中小企业。
②指国土空间规划中划定的“三区三线”。“三区”指农业、生态、城镇 3 个功能区, “三线”指永久基本农田、生态保护红线和城镇开发边界。
不同于传统的自然语言处理任务, 新词抽取需要基于大量标注语料才能判定某个词是否是新词, 且具有主观性, 所以尚无标准的评估数据集和评估指标。目前的研究中一般通过抽取的词的精确率 P (precision)、召回率R (recall)和F1值(F1-measure)来评估[1–7,11–13,15–16], 与本文中严格意义上的新词抽取不对等, 故本文从效率和效果两个方面与现有工作进行对比。
2.3.1 效率评估
汉文和藏文的新闻文本都是大语料量, 完全靠人工实现从大规模语料中抽取新词, 工作量非常大, 因此需要借助计算机辅助新词抽取, 我们提出的“TopWORDS+PKUSEG”融合方法, 在实现人工干预少的同时又不降低抽取新词的效能。汉文使用“TopWORDS+PKUSEG”融合方法, 经过自动去重后进入人工筛选阶段的年度候选新词有 4659 个, 其中筛选出 491 条新词(启发式规则抽取的词语没有计算在内), 而直接使用 TopWORDS 算法得到的年度候选新词有 31801 个。在人工筛选非新词方面, 本文方法比 TopWORDS 方法减少 87%的工作量, 显著地提高新词抽取的效率。
2.3.2 效果评估
我们把获得的 2022 年度汉藏新词表与《中国语言生活状况报告 2023》(简称绿皮书)[20]收录的2022 年度汉文新词进行对比。
绿皮书只编录汉文新词, 2022 年度绿皮书的汉文新词有 216 个。本文方法抽取到汉文新词共 606个, 两种方法共有的新词仅 15 个, 本文方法独有的新词有 591 个。表 2 中, 前 50 个汉文新词中除“全球安全倡议” “全国统一大市场” “神舟十四号”这 3 个共有的新词外, 其他均为本文方法独有的新词。本文方法不仅适用于汉文新词的抽取, 也适用于其他语种的新词抽取。比如藏文新词的自动抽取及汉藏新词对齐, 本文方法抽取到藏文新词共 664 个, 弥补了藏文新词术语人工选词、翻译和发布时效性滞后的问题, 可以开展语言动态监测并向社会发布藏文新词。
两个方法的汉文新词差异较大, 主要有以下 3个方面的原因。
1)用于抽取新词的语料来源不同。本文中, 汉文语料只来源于《人民日报》数字化版, 藏文语料来源于藏文新闻网站, 新闻文本相对正式, 具有严肃性和规范性, 内容变化紧随时代热点。本文独有的新词中, 有 101 个政治相关的词语, 如“二十大” “五个必由之路” “十三个方面成就”等, 还有与民生、经济等相关的新词。绿皮书语料来源于国家语言资源监测语料库, 包括平面媒体、有声媒体和网络媒体等。网络媒体文本具有不规范、口语化、非正式和更迭快的特点, 在绿皮书独有的新词中, 有21 个网络词语, 如“芭比 Q” “雪糕刺客” “电子榨 菜”等等。
2)同一个新词在两种方法中被收录的时间不同。绿皮书(2022 年度)独有的新词中有 8 个新词出现在其他年份的汉文新词表中, 属于 2019 (1 个)、2020(4 个)、2021 (3 个)年度的新词, 如“中国式现代化(2021)” “全人类共同价值(2021)” “冰雪经济(2019)”等。本文独有的 2022 年度汉文新词中, 有20 个新词在绿皮书中属于 2019(2 个)、2020(2 个)、2021(16 个)年度的新词, 如“雪飞燕(2021)” “东数西算(2021)”等。
3)两个方法的新词界定标准不同。本文界定新词的要素之一是“在一段时间内具有一定的使用频率”, 因此会自动过滤低频词语。我们抽取到的2022 年度独有的新词都具有一定的使用频率, 社会知晓度相对较高, 如“二十大” “新就业群体” “小巨人” “抗原检测” “预制菜”等。绿皮书认为监测与发布新词是为了与社会共享信息, 因此会收录一些频次较低、生命力不强的新词[21], 因而绿皮书(2022年度)中存在低频词, 如“万物皆可钝角” “养码” “扫录”等。
我们通过分析汉藏新词的词频发展变化趋势, 获取汉藏新词的特点, 并反映的社会发展状况。根据汉文和藏文不同新词的年度历时词频发展, 可以看出, 新词大部分是成长型的词语(图 2)。成长型新词的特征是曲线的走势呈逐渐提升和突增的状态, 比如“行程码”在 2020, 2021 和 2022 年的词频分别是 1, 6 和 38 次。对应藏文新词的两个词形, 其中“ལམ་ཐིག་ཨང་རྟགས”在 2022 年出现 133 次, “ལམ་ཐིག་ཨང་བཤེར”分别在 2021 和 2022 年出现 3 和 43 次。汉文新词“直播带岗”是一种线上招聘方式, 网络主播通过线上直播的方式, 向求职者介绍需要招工的企业和岗位的实景, 进入直播间的求职者在线观看直播, 并与主播互动, 进行岗位匹配。“直播带岗”一词最早出现在 2020 年, 2020—2022 年共出现 73 次, 虽然词频有波动, 整体仍呈现上升趋势, 藏文新词“ཐད་གཏོང་ལས་སྤྲོད”最早出现在 2022 年, 共出现 7 次。这些新词随着新事件的产生而出现, 反映社会发展状况的变化。
根据汉文和藏文不同新词的年度历时词频发展曲线可以得知, 汉藏新词都存在不同词形表达同一意思的现象, 词语存在并列或竞争的关系(图 3)。比如“15 分钟生活圈”的另一种表达形式是“十五分钟生活圈”, 指以居住地为中心, 在步行 15 分钟的范围内, 能够完成一个人“吃喝玩乐医”等大部分的活动。“15 分钟生活圈”共出现 52 次, 2004—2017 年呈现周期性波动的发展趋势, 2018 年开始逐渐递增。“十五分钟生活圈”出现 3 次, 即在 2004, 2009 和 2019 年各出现 1 次。藏文新词“ཀྲུང་གུང་ཚོགས་ཆེན་ཉི་ཤུ་པ” “ཀྲུང་གུང་ཚོགས་ཆེན་ཐེངས་ཉི་ཤུ་པ”“ཀྲུང་གུང་གི་ཚོགས་ཆེན་ཉི་ཤུ་པ”都表示“中共二十大”, 分别出现 291, 51 和 33 次, 其中“ཀྲུང་གུང་ཚོགས་ ཆེན་ཉི་ཤུ་པ”在 2021 和 2022 年的出现频率分别是 2 和289, “ཀྲུང་གུང་གི་ཚོགས་ཆེན་ཉི་ཤུ་པ”在 2021 和 2022 年的出现频率分别是 6 和 27。“གུང་ཚོགས་ཆེན་ཐེངས་ཉི་ཤུ་པ”仅在 2022 年出现 51 次, 曲线走势都呈现突增的状态。结合发展曲线和词频可以看出, “15 分钟生活圈” “ཀྲུང་གུང་ཚོགས་ཆེན་ཉི་ཤུ་པ”的使用频率较高, 使用范围广, 认可度较高。
图2 成长型汉藏新词词频对比
Fig. 2 Comparison of word frequency of growth Chinese-Tibetan new words
图3 不同词形的汉藏新词词频对比
Fig. 3 Comparison of word frequency of Chinese-Tibetan new words in different forms
本文提出一种结合大词表和自动分词的汉藏新词抽取方法, 将分词和词语发现联结起来, 利用TopWORDS 算法获取大词表, 结合大词表和 PKU-SEG 分词工具自动分词, 得到年度词表。经过自动去重和人工筛选规则, 最后得到年度新词表。与现有方法相比, 本文提出的方法可以显著地减少人工筛选工作量, 提高新词抽取的效率和效果。本文方法适用于藏文等语种的新词抽取, 抽取的新词(汉文 606 个, 藏文 664 个)可作为汉文和藏文自然语言处理的重要基础数据资源。通过对汉藏新词进行对齐和分析发现, 汉藏新词的特征对其他学科的研究(如语言学和社会语言学)具有重要意义。本文方法尚存在不足, 属于管道式方法, 未来将探索统一的、端到端的新词抽取模型。
参考文献
[1] 色差甲, 贡保才让, 才让加. 基于最大熵和HMM的藏文新词识别对比研究. 青海师范大学学报(自然科学版), 2018, 34(1): 12–16
[2] 邹纲, 刘洋, 刘群, 等. 面向Internet的中文新词语检测. 中文信息学报, 2004, 18(6): 1–9
[3] 姜如霞, 黄水源, 段隆振, 等. 基于规则和N-Gram算法的新词识别研究. 现代电子技术, 2019, 42(4): 166–170
[4] 才智杰. 藏文自动分词系统中紧缩词的识别. 中文信息学报, 2009, 23(1): 35–37
[5] 李文坤, 张仰森, 陈若愚. 基于词内部结合度和边界自由度的新词发现. 计算机应用研究, 2015, 32 (8): 2302–2304
[6] 夭荣朋, 许国艳, 宋健. 基于改进互信息和邻接熵的微博新词发现方法. 计算机应用, 2016, 36(10): 2772–2776
[7] 刘伟童, 刘培玉, 刘文锋, 等. 基于互信息和邻接熵的新词发现算法. 计算机应用研究, 2019, 36(5): 1293–1296
[8] Deng K, Bol P K, Li K J, et al. On the unsupervised analysis of domain-specific Chinese texts. Proceedings of the National Academy of Sciences, 2016, 113(22): 6154–6159
[9] Chen A, Sun M S. Domain-specific new words detec-tion in Chinese // Proceedings of the 6th Joint Confe-rence on Lexical and Computational Semantics. Van-couver, 2017: 44–53
[10] Pan C Z, Sun M S, Deng K. TopWORDS-Seg: simul-taneous text segmentation and word discovery for open-domain Chinese texts via Bayesian inference // Proceedings of the 60th Annual Meeting of the Associ-ation for Computational Linguistics (Volume 1: Long Papers). Dublin, 2022: 158–169
[11] 王巍洁, 任慧玲, 李晓瑛, 等. 融合汉字多语义与文本统计特征的中文医学新词发现研究. 图书情报工作, 2024, 68(6): 119–128
[12] 刘清民, 王芳, 黄梅银. 我国人工智能政策新词发现与演化研究——一个多特征融合的算法. 现代情报, 2024, 44(6): 18–32
[13] 周霜霜, 徐金安, 陈钰枫, 等. 融合规则与统计的微博新词发现方法. 计算机应用, 2017, 37(4): 1044–1050
[14] 王博, 代翔, 时聪, 等. 一种基于主动学习的中文新词识别算法. 电讯技术, 2020, 60(11): 1265–1270
[15] 张乐, 冷基栋, 吕学强, 等. MWEC: 一种基于多语义词向量的中文新词发现方法. 数据分析与知识发现, 2022, 6(1): 113–121
[16] 刘凡平, 陈慧, 沈振雷, 等. 基于BERT的开放领域中文新词发现研究. 计算机应用与软件, 2023, 40 (6): 173–180
[17] Luo R X, Xu J J, Zhang Y, et al. PKUSEG: a toolkit for multi-domain Chinese word segmentation [DB/OL]. (2019–06–28)[2023–08–08]. https://arxiv.org/abs/1906. 11455
[18] Zhao X B, Gao L, Gao D G, et al. Tibetan.zip, V1. Science Data Bank [DS/OL]. (2022–01–28) [2023–08–08]. https://www.scidb.cn/en/file?fid=61b9d6483e996 60f29a8ed67&mode=front
[19] 苏新春, 黄启庆. 新词语的成熟与规范词典的选录标准——谈《现代汉语词典》(二OO二年增补本)的“附录新词”. 辞书研究, 2003(3): 106–113
[20] 国家语言资源监测与研究中心. 中国语言生活状况报告2023. 北京: 商务印书馆, 2023
[21] 邹煜, 李开拓. 汉语新词语监测:监测的不只是语言——新词语监测与研究5年回顾. 北华大学学报(社会科学版), 2012, 13(5): 9–17
Extraction and Analysis of Chinese-Tibetan New Words from News Texts
Abstract This paper proposes an effective unsupervised extraction method for news text. Combined with the unsupervised TopWORDS algorithm and the word segmentation tool PKUSEG, and aided by the heuristic word extraction method, the annual new words are extracted from Chinese and Tibetan news texts. A total of 606 new words in Chinese and 664 new words in Tibetan are extracted for 2022. In terms of efficiency, this method reduces the workload of manual selection and significantly improves the efficiency of new words extraction. In terms of effect, compared with the 2022 Chinese new words published in the “Language Situation in China: 2023”, the new words extracted by this method have obvious advantages in terms of number and language. In addition, this paper aligns the Chinese and Tibetan new words. A case study is engaged from the perspective of the development and use of new words.
Key words news text; Chinese; Tibetan; new words extraction