摘要:
构建一种基于融合条目词嵌入和注意力机制的深度学习模型, 可以充分利用电子病案中的多种非结构化文本数据, 对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入, 并通过关键词注意力来丰富词级别的类别表示; 然后利用词语注意力来突出重点词语的作用, 增强文本表示; 最后通过全连接神经网络分类器进行分类, 输出ICD编码。通过在中文电子病案数据集上的消融实验, 验证了融合条目词嵌入、关键词注意力和词语注意力的有效性; 与多个基准模型相比, 所建模型在对81 种疾病的分类中取得最好的分类效果, 可以有效地提高自动ICD编码的质量。
张虹科, 付振新, 任前平, 徐辉, 赵东岩, 严睿. 基于融合条目词嵌入和注意力机制的自动 ICD 编码[J]. 北京大学学报自然科学版, 2020, 56(1): 1-8.
ZHANG Hongke, FU Zhenxin, REN Qianping, XU Hui, ZHAO Dongyan, YAN Rui. Automated ICD Coding Based on Word Embedding with Entry Embedding and Attention Mechanism[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(1): 1-8.