摘要:
针对当前电力文本分类方法中因忽视类别标签之间潜在语义关联关系而导致分类性能低效的问题, 提出一种基于层次化分类模型的电力文本分类方法。首先, 利用采集的电力成果非结构化文档, 采用自动化信息提取技术和标注技术, 构建电力文本多标签分类训练集, 并结合领域知识分析, 构建类别标签之间的层次化关系。然后, 提出基于类别结构和标签语义混合嵌入的文本分类模型 HONLSTM-BERT, 利用类别标签之间的层次化结构关系进行自顶向下的层次化文本分类。最后, 通过实验与当前流行的文本分类模型进行对比分析, 结果表明HONLSTM-BERT方法具有更好的分类准确率, 可有效地提高电力文本自动分类性能。
陈晓娜, 高鹏飞, 梁越, 马应龙. 基于类别混合嵌入的电力文本层次化分类方法[J]. 北京大学学报自然科学版, 2022, 58(1): 77-82.
CHEN Xiaona, GAO Pengfei, LIANG Yue, MA Yinglong. A Category Hybrid Embedding Based Approach for Power Text Hierarchical Classification[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 77-82.