基于随机森林分类的微博机器用户识别研究

北京大学学报（自然科学版）

基于随机森林分类的微博机器用户识别研究

刘勘¹,袁蕴英¹,刘萍²

1. 中南财经政法大学信息与安全工程学院, 武汉 430074; 2. 武汉大学信息管理学院, 武汉 430072;

收稿日期:2014-07-27 出版日期:2015-03-20 发布日期:2015-03-20

A Weibo Bot-users Indentification Model Based on Random Forest

LIU Kan¹, YUAN Yunying¹, LIU Ping²

1. School of Information and Safety Engineering, Zhongnan University of Economics and Law, Wuhan 430074; 2. School of Information Management, Wuhan University, Wuhan 430072;

Received:2014-07-27 Online:2015-03-20 Published:2015-03-20

摘要/Abstract

摘要： 针对网络上机器用户大量散布谣言, 发布虚假信息, 误导网民舆论, 严重影响网络环境的问题, 以微博中的机器用户为研究对象, 结合其自动化程度高、伪装能力强、信息发布有针对性的特点, 从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标, 利用信息熵、内容重复率等8个指标构建微博用户的特征向量, 通过随机森林算法设计微博中机器用户的识别模型。最后, 在真实的新浪微博数据集上进行验证, 结果表明本模型识别机器用户的准确度达到96.7%, 可以有效地区分微博中的机器用户和普通用户。

关键词: 机器用户, 微博, 随机森林

Abstract: Bot-users spread rumors or fake information widely, misleading the public opinion, seriously affecting the normal network environment. Taking Weibo bot-users as main focus, considering their high-level automation, strong disguise power and targeted ability to release, a four-dimensional characteristic index of information entropy, content repetition rate, reputation, mutural, mention ratio, comment ratio, message and numofplatform is proposed to construct a feature vector and an identification model based on random forest algorithm is designed to recognize the bot-users. Finally, the Sina Weibo set are used to verify the efficiency and effectiveness of the model, with the accuracy of 96.7%. The result shows that the model is good at distinguishing the bot-users from ordinary users.

Key words: bot-users, Weibo, random forest

中图分类号:

TP391

刘勘,袁蕴英,刘萍. 基于随机森林分类的微博机器用户识别研究[J]. 北京大学学报（自然科学版）.

LIU Kan,YUAN Yunying,LIU Ping. A Weibo Bot-users Indentification Model Based on Random Forest[J]. Acta Scientiarum Naturalium Universitatis Pekinensis.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/

https://xbna.pku.edu.cn/CN/Y2015/V51/I2/289

[1]	石婕妤, 吴秀芹, 董贵华. 三江流域(云南区段)耕地非粮化空间格局及驱动因素[J]. 北京大学学报自然科学版, 2024, 60(5): 893-904.
[2]	陈挚, 黄樱, 丁金山, 石喆, 邱国玉, 鄢春华. 考虑植被盖度的城市蒸散发模拟研究[J]. 北京大学学报自然科学版, 2022, 58(6): 1130-1140.
[3]	王馨陆, 黄冉, 张雯娴, 吕宝磊, 杜云松, 张巍, 李波兰, 胡泳涛. 基于机器学习方法的臭氧和PM_2.5污染潜势预报模型——以成都市为例[J]. 北京大学学报自然科学版, 2021, 57(5): 938-950.
[4]	程俊毅, 张显峰, 孙敏, 罗鹏, 杨婉婷. 基于空地协同采样的植被覆盖度随机森林估算方法[J]. 北京大学学报自然科学版, 2020, 56(1): 143-154.
[5]	侯玉波, 葛枭语. 使用社交媒体能提升用户的社交自我效能感吗?[J]. 北京大学学报自然科学版, 2019, 55(5): 968-976.
[6]	任婷玉, 梁中耀, 陈会丽, 刘永. 基于模式识别方法的湖泊水质污染特征聚类研究[J]. 北京大学学报自然科学版, 2019, 55(2): 335-341.
[7]	刘思叶, 田原, 冯雨宁, 庄育龙. 游客微博主题情感分析方法比较研究[J]. 北京大学学报自然科学版, 2018, 54(4): 687-692.
[8]	周佳宁, 张洁, 李天宏. 基于MODIS影像和随机森林算法的河北坝上林地动态监测[J]. 北京大学学报自然科学版, 2018, 54(4): 792-800.
[9]	史忠奎, 李培军, 罗伦, 阳柯. 基于形态学属性剖面和单类随机森林分类的道路路域新增建筑物提取方法[J]. 北京大学学报（自然科学版）, 2018, 54(1): 105-114.
[10]	姜杰, 夏睿. 机器学习与语义规则融合的微博情感分类方法[J]. 北京大学学报自然科学版, 2017, 53(2): 247-254.
[11]	胡磊, 孙茂华. 微博社区成员参与的心理机制: 实证研究与管理启示[J]. 北京大学学报（自然科学版）, 2016, 52(5): 793-802.
[12]	周昌令, 陈恺, 公绪晓, 陈萍, 马皓. 基于Passive DNS的速变域名检测[J]. 北京大学学报（自然科学版）, 2016, 52(3): 396-402.
[13]	刘翠娟, 刘箴, 柴艳杰, 方昊, 刘良平. 基于微博文本数据分析的社会群体情感可视计算方法研究[J]. 北京大学学报（自然科学版）, 2016, 52(1): 178-186.
[14]	胡磊,高迎. 微博社区成员参与动机实证研究[J]. 北京大学学报（自然科学版）, 2014, 50(5): 797-804.
[15]	欧阳纯萍,阳小华,雷龙艳,徐强,余颖,刘志明. 多策略中文微博细粒度情绪分析研究[J]. 北京大学学报（自然科学版）, 2014, 50(1): 67-72.