摘要:
基于2017—2021年浙江省12345政务热线数据, 从居民视角构建细粒度的民生问题三级分类体系, 并利用BERT预训练模型来构建文本分类模型, 将居民诉求文本转化为民生问题标签。研究结果表明, 在政务热线数据中加入30%的人工生成诉求样本, 可以使模型的分类准确率提升约10个百分点, 准确率最高可达84.59%。对浙江省各类民生问题占比的分析结果表明, 环境保护、违规经营和市政服务等诉求的比例呈现下降趋势, 而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势。研究结果有助于加强政府对于民情民意的了解, 提升数据驱动的社会治理能力。
孔祥夫, 董波, 徐可, 陶永亮. 基于BERT的民生问题文本分类模型——以浙江省政务热线数据为例[J]. 北京大学学报自然科学版, 2023, 59(3): 456-466.
KONG Xiangfu, DONG Bo, XU Ke, TAO Yongliang. Text Classification Model for Livelihood Issues Based on BERT: A Study Based on Hotline Compliant Data of Zhejiang Province[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(3): 456-466.