摘要:
为了有效地保护患者隐私与数据安全, 探索不同主流大语言模型在医疗文书中脱敏的表现, 设计一套基于大语言模型的医疗脱敏系统。该系统分别以主流开源大语言模型Gemma2, Llama3, Qwen2和Mistral为研究对象, 使用大语言模型管理框架工具 Ollama进行私有化部署; 通过构建统一Prompt提示工程模版作为大语言模型输入, 以接口形式调用大语言模型能力获取医疗文书中目标敏感词, 然后对医疗文书进行敏感词替换, 完成医疗文书的脱敏工作。在虚拟专用服务器上, 单份医疗文书敏感词识别均可在52.420~123.380 s内完成; 在5类医疗文书脱敏、12类敏感词识别以及大语言模型的处理实效性上, Gemma2的整体表现最佳, 其后依次为Llama3, Qwen2和Mistral。结果表明, 在无GPU算力的情况下, 虚拟专用服务器可通过部署大语言模型来高质量地完成敏感词识别和处理, 可以极大地提高医疗文书脱敏的准确性。
张志立, 杨红, 庞娟, 衡反修. 大语言模型在医疗数据脱敏中的实践与表现[J]. 北京大学学报(自然科学版), 2025, 61(6): 1057-1063.
ZHANG Zhili, YANG Hong, PANG Juan, HENG Fanxiu. Practice and Performance of Large Language Models in Medical Data Desensitization[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(6): 1057-1063.