摘要:
基于深度学习与机器学习相结合的方法, 构建面向作者身份验证的标注数据集, 并采用BERT和动态相似度阈值策略来提升标签质量。然后, 提出一种融合BERT文本嵌入和XGBoost-BO的作者身份识别模型, 该模型通过结合BERT强大的特征提取能力、XGBoost高效的分类性能以及贝叶斯优化的超参数搜索策略, 实现对作者身份的准确判断。同时, 探讨动态相似度阈值策略在提升作者相似度判定准确性方面的有效性, 以及贝叶斯优化在自动调整XGBoost超参数、提升模型综合性能方面的显著作用。实验结果表明, 该方法在各项指标上均优于其他对比算法, 可为作者身份验证提供新的思路和方法。
王新民, 朱文卿, 韩卓希, 刘豪. 融合文本嵌入和机器学习的作者身份验证方法研究[J]. 北京大学学报(自然科学版), 2025, 61(6): 1047-1056.
WANG Xinmin, ZHU Wenqing, HAN Zhuoxi, LIU Hao. Research on Authorship Verification Methods Integrating Text Embedding and Machine Learning[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2025, 61(6): 1047-1056.