北京大学学报自然科学版 ›› 2017, Vol. 53 ›› Issue (2): 262-272.DOI: 10.13209/j.0479-8023.2017.033
余传明1, 冯博琳1, 左宇恒1, 陈百云1, 安璐2,†()
收稿日期:
2016-07-22
修回日期:
2016-09-24
出版日期:
2017-03-20
发布日期:
2017-03-20
通讯作者:
安璐
基金资助:
Chuanming YU1, Bolin FENG1, Yuheng ZUO1, Baiyun CHEN1, Lu AN2,†()
Received:
2016-07-22
Revised:
2016-09-24
Online:
2017-03-20
Published:
2017-03-20
Contact:
Lu AN
摘要:
从评论利益相关者内容与行为特征相结合的角度, 提出一种基于个人-群体-商户的主体关系模型(IGMRM)。选择93家店铺中9558个不同IP的97804条评论作为样本数据进行实验, 结果表明, IGMRM在识别虚假评论者、存在信用操纵的商铺以及虚假评论者群体的 F1 值分别达到 82.62%、59.26%和95.12%。使用基于评论内容的逻辑回归模型和 K 最邻近模型作为基线分类方法, 识别虚假评论者的 F1 值分别为52.63%和76.75%, 表明IGMRM在识别虚假评论者方面优于传统方法。
中图分类号:
余传明, 冯博琳, 左宇恒, 陈百云, 安璐. 基于个人-群体-商户关系模型的虚假评论识别研究[J]. 北京大学学报自然科学版, 2017, 53(2): 262-272.
Chuanming YU, Bolin FENG, Yuheng ZUO, Baiyun CHEN, Lu AN. An Individual-Group-Merchant Relation Model for Identifying Online Fake Reviews[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 262-272.
指标 | 估值 | 标准误差 | z值 | Pr(>|z|) |
---|---|---|---|---|
Intercept | -3.5174 | 0.5886 | -5.976 | 2.29×10-9*** |
RUR | -5.4879 | 1.9562 | -2.805 | 5.03×10-3** |
URW | 2.5755 | 1.2074 | 2.133 | 3.291×10-2* |
RR | 50.6619 | 11.9434 | 4.424 | 2.22×10-5*** |
RCS | 2.3308 | 1.0796 | 2.159 | 3.085×10-2* |
RTW | 3.5696 | 0.8075 | 4.421 | 9.85×10-6*** |
表1 个人行为指标评估
Table 1 Individual behavior indicators’ evaluation
指标 | 估值 | 标准误差 | z值 | Pr(>|z|) |
---|---|---|---|---|
Intercept | -3.5174 | 0.5886 | -5.976 | 2.29×10-9*** |
RUR | -5.4879 | 1.9562 | -2.805 | 5.03×10-3** |
URW | 2.5755 | 1.2074 | 2.133 | 3.291×10-2* |
RR | 50.6619 | 11.9434 | 4.424 | 2.22×10-5*** |
RCS | 2.3308 | 1.0796 | 2.159 | 3.085×10-2* |
RTW | 3.5696 | 0.8075 | 4.421 | 9.85×10-6*** |
象 | k | P | R | F1 |
---|---|---|---|---|
个人 | 90 | 0.7992 | 0.7543 | 0.7737 |
92 | 0.8044 | 0.7719 | 0.7863 | |
4 | 0.8103 | 0.7894 | 0.7989 | |
6 | 0.8168 | 0.8070 | 0.8116 | |
8 | 0.8245 | 0.8245 | 0.8245 | |
00 | 0.8152 | 0.8245 | 0.8195 | |
02 | 0.8052 | 0.8245 | 0.8137 | |
04 | 0.8165 | 0.8421 | 0.8262 | |
商家 | 30 | 0.5471 | 0.4909 | 0.5094 |
32 | 0.5690 | 0.5272 | 0.5424 | |
34 | 0.5907 | 0.5636 | 0.5744 | |
36 | 0.5774 | 0.5636 | 0.5698 | |
38 | 0.5636 | 0.5636 | 0.5636 | |
40 | 0.5866 | 0.6 | 0.5926 | |
42 | 0.5721 | 0.6 | 0.5833 | |
44 | 0.5553 | 0.6 | 0.5717 | |
群组 | 66 | 0.9786 | 0.8292 | 0.8874 |
68 | 0.9630 | 0.8292 | 0.8863 | |
70 | 0.9637 | 0.8536 | 0.9010 | |
72 | 0.9644 | 0.8780 | 0.9154 | |
74 | 0.9654 | 0.9024 | 0.9298 | |
76 | 0.9668 | 0.9268 | 0.9441 | |
78 | 0.9505 | 0.9268 | 0.9385 | |
80 | 0.9512 | 0.9512 | 0.9512 |
表2 IGMRM模型的实验结果
Table 2 Experimental results of the IGMRM model
象 | k | P | R | F1 |
---|---|---|---|---|
个人 | 90 | 0.7992 | 0.7543 | 0.7737 |
92 | 0.8044 | 0.7719 | 0.7863 | |
4 | 0.8103 | 0.7894 | 0.7989 | |
6 | 0.8168 | 0.8070 | 0.8116 | |
8 | 0.8245 | 0.8245 | 0.8245 | |
00 | 0.8152 | 0.8245 | 0.8195 | |
02 | 0.8052 | 0.8245 | 0.8137 | |
04 | 0.8165 | 0.8421 | 0.8262 | |
商家 | 30 | 0.5471 | 0.4909 | 0.5094 |
32 | 0.5690 | 0.5272 | 0.5424 | |
34 | 0.5907 | 0.5636 | 0.5744 | |
36 | 0.5774 | 0.5636 | 0.5698 | |
38 | 0.5636 | 0.5636 | 0.5636 | |
40 | 0.5866 | 0.6 | 0.5926 | |
42 | 0.5721 | 0.6 | 0.5833 | |
44 | 0.5553 | 0.6 | 0.5717 | |
群组 | 66 | 0.9786 | 0.8292 | 0.8874 |
68 | 0.9630 | 0.8292 | 0.8863 | |
70 | 0.9637 | 0.8536 | 0.9010 | |
72 | 0.9644 | 0.8780 | 0.9154 | |
74 | 0.9654 | 0.9024 | 0.9298 | |
76 | 0.9668 | 0.9268 | 0.9441 | |
78 | 0.9505 | 0.9268 | 0.9385 | |
80 | 0.9512 | 0.9512 | 0.9512 |
商家编号 | f(m) | 排名 |
---|---|---|
12**73 | 7.461918×10-1 | 1 |
7**09 | 5.370122×10-1 | 2 |
14**68 | 3.934663×10-1 | 3 |
10**30 | 2.677272×10-5 | 4 |
7**72 | 1.714189×10-5 | 5 |
7**96 | 1.453285×10-5 | 6 |
12**22 | 1.339835×10-5 | 7 |
12**29 | 1.184025×10-5 | 8 |
12**76 | 1.018929×10-5 | 9 |
10**92 | 8.861665×10-6 | 10 |
表 3 商户虚假度排名
Table 3 Merchants’ fake degree rank
商家编号 | f(m) | 排名 |
---|---|---|
12**73 | 7.461918×10-1 | 1 |
7**09 | 5.370122×10-1 | 2 |
14**68 | 3.934663×10-1 | 3 |
10**30 | 2.677272×10-5 | 4 |
7**72 | 1.714189×10-5 | 5 |
7**96 | 1.453285×10-5 | 6 |
12**22 | 1.339835×10-5 | 7 |
12**29 | 1.184025×10-5 | 8 |
12**76 | 1.018929×10-5 | 9 |
10**92 | 8.861665×10-6 | 10 |
个人编号(IP) | f(u) | 排名 |
---|---|---|
111.*. *.140 | 0.379819 | 1 |
222.*.*.179 | 0.3325661 | 2 |
122.*.*.223 | 0.3296828 | 3 |
42.*.*.160 | 0.3249425 | 4 |
42.*.*.100 | 0.3037860 | 5 |
222.*.*.110 | 0.2878484 | 6 |
42.*.*.74 | 0.2876034 | 7 |
125.*.*.19 | 0.2819457 | 8 |
42.*.*.246 | 0.2724028 | 9 |
61.*.*.244 | 0.2243581 | 10 |
表4 用户虚假度排名
Table 4 Users’ fake degree rank
个人编号(IP) | f(u) | 排名 |
---|---|---|
111.*. *.140 | 0.379819 | 1 |
222.*.*.179 | 0.3325661 | 2 |
122.*.*.223 | 0.3296828 | 3 |
42.*.*.160 | 0.3249425 | 4 |
42.*.*.100 | 0.3037860 | 5 |
222.*.*.110 | 0.2878484 | 6 |
42.*.*.74 | 0.2876034 | 7 |
125.*.*.19 | 0.2819457 | 8 |
42.*.*.246 | 0.2724028 | 9 |
61.*.*.244 | 0.2243581 | 10 |
群组编号(IP) | f (g) | 排名 |
---|---|---|
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246993 | 1 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246467 | 2 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246448 | 3 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.246""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245663 | 4 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245570 | 5 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.246""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1245103 | 6 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.100""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245025 | 7 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1245014 | 8 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1244561 | 9 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""58.*.*.60""61.*.*.244" | 0.1244181 | 10 |
表5 群组虚假度排名
Table 5 Groups’ fake degree rank
群组编号(IP) | f (g) | 排名 |
---|---|---|
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246993 | 1 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246467 | 2 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60""61.*.*.244" | 0.1246448 | 3 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.246""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245663 | 4 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245570 | 5 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.246""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1245103 | 6 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.100""42.*.*.160""42.*.*.74""61.*.*.244" | 0.1245025 | 7 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1245014 | 8 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.246""42.*.*.100""42.*.*.160""42.*.*.74""58.*.*.60" | 0.1244561 | 9 |
"111.*.*.140" "122.*.*.223" "125.*.*.19""222.*.*.179""222.*.*.110""42.*.*.38""42.*.*.100""42.*.*.160""58.*.*.60""61.*.*.244" | 0.1244181 | 10 |
模型 | P | R | F |
---|---|---|---|
LR | 0.4555 | 0.7857 | 0.5263 |
KNN | 0.7481 | 0.7926 | 0.7675 |
IGMRM | 0.8165 | 0.8421 | 0.8262 |
表6 3种方法的分类效果比较
Table 6 Comparision among three methods
模型 | P | R | F |
---|---|---|---|
LR | 0.4555 | 0.7857 | 0.5263 |
KNN | 0.7481 | 0.7926 | 0.7675 |
IGMRM | 0.8165 | 0.8421 | 0.8262 |
[1] | 陈明亮, 章晶晶. 网络口碑再传播意愿影响因素的实证研究. 浙江大学学报: 人文社会科学版, 2008, 38(5): 127-135 |
[2] | Mukherjee A, Liu B, Glance N.Spotting fake reviewer groups in consumer reviews // The 21st International Conference on World Wide Web. New York: ACM, 2012: 191-200 |
[3] | Jindal N, Liu B. Analyzing and detecting review spam // The 7th International Conference on Data Mining Proceedings. Washington, DC: IEEE Computer So-ciety, 2007: 547-552 |
[4] | Jindal N, Liu B.Opinion spam and analysis // International Conference on Web Search and Data Mining Proceedings. New York: ACM, 2008: 219-230 |
[5] | Jindal N, Liu B.Review spam detection // The 16th International Conference on World Wide Web Proceedings. New York: ACM, 2007: 1189-1190 |
[6] | Xu C, Zhang J, Chang K Y, et al.Uncovering Collusive spammers in Chinese review websites // ACM International Conference on Information & Knowledge Management Proceedings. Burlingame, 2013: 979-988 |
[7] | Wang G, Xie SH, Liu B, et al.Review graph based online store review spammer detection // IEEE International Conference on Data Mining. Vancouver, 2011: 1242-1247 |
[8] | 宋海霞, 严馨, 余正涛, 等. 基于自适应聚类的虚假评论检测. 南京大学学报: 自然科学, 2013, 49(4): 433-438 |
[9] | 聂卉, 王佳佳. 产品评论垃圾识别研究综述. 现代图书情报技术, 2014(2): 63-71 |
[10] | Ott M, Choi Y J, Cardie C, et al.Finding deceptive opinion spam by any stretch of the imagination // The 49th Meeting of the Association for Computational Linguistics: Human Language Technologies. Strouds-burg, PA: Association for Computational Linguistics, 2011: 309-319 |
[11] | Mukherjee A, Venkataraman V.What Yelp fake review filter might be doing // The 7th International Conference on Weblogs and Social Media. Palo Alto: AAAI Press, 2013: 409-418 |
[12] | Li H, Chen Z Y, Liu B, Wei X K, et al.Spotting fake reviews via collective positive-unlabeled learning. International Conference on Data Mining Proceedings, 2014, 18(3): 899-904 |
[13] | Mukherjee A, Kumar A, Liu B, et al.Castellanos M and Ghost R. Spotting opinion spammers using behavioral footprints // The 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 632-640 |
[14] | Akoglu L, Chandy R, Faloutsos C.Opinion fraud detection in online reviews by network effects // International AAAI Conference on Weblogs and Social Media. Cambridge, 2013: 1-10 |
[15] | 邱云飞, 王建坤, 邵良杉, 等. 基于用户行为的产品垃圾评论者检测研究. 计算机工程, 2012, 38(11): 254-257 |
[16] | 孙升芸, 田萱, 何军. 基于评论行为的商品垃圾评论的识别研究. 计算机工程与设计, 2012, 33(11): 4314-4319 |
[17] | 李霄, 丁晟春. 垃圾商品评论信息的识别研究. 现代图书情报技术, 2013(1): 63-68 |
[18] | 邓莎莎, 张朋柱, 张晓燕, 等. 基于欺骗语言线索的虚假评论识别. 系统管理学报, 2014(2): 263-270 |
[19] | 孟美任, 丁晟春. 虚假商品评论信息发布者行为动机分析. 情报科学, 2013, 31(10): 100-104 |
[20] | 陈燕方, 娄策群. 在线商品虚假评论形成路径研究. 现代情报, 2015, 35(1): 49-53 |
[1] | 刘秋慧, 张坤丽, 许鸿飞, 俞士汶, 昝红英. 助词“的”用法自动识别研究[J]. 北京大学学报(自然科学版), 2018, 54(3): 466-474. |
[2] | 柯永红, 朱永福, 穗志方, 俞士汶. 基于多特征的语义角色标注一致性计算方法研究[J]. 北京大学学报(自然科学版), 2018, 54(3): 475-480. |
[3] | 杨萌, 李培峰, 朱巧明. 一种基于Tree-LSTM的句子相似度计算方法[J]. 北京大学学报(自然科学版), 2018, 54(3): 481-486. |
[4] | 张雨, 曾立, 邹磊. 大规模图数据的正则路径查询[J]. 北京大学学报(自然科学版), 2018, 54(2): 236-242. |
[5] | 魏星, 王玮, 陈静萍, 解焱陆, 张劲松. 基于发音特征的汉语发音偏误自动标注[J]. 北京大学学报(自然科学版), 2018, 54(2): 243-248. |
[6] | 林心宜, 严睿, 赵东岩. 融合词、句层级信息的抽取式摘要优化框架[J]. 北京大学学报(自然科学版), 2018, 54(2): 229-235. |
[7] | 周楠, 赵悦, 李要嫱, 徐晓娜, 才旺拉姆, 吴立成. 基于瓶颈特征的藏语拉萨话连续语音识别研究[J]. 北京大学学报(自然科学版), 2018, 54(2): 249-254. |
[8] | 谭亦鸣, 王明文, 李茂西. 基于翻译质量估计的神经网络译文自动后编辑[J]. 北京大学学报(自然科学版), 2018, 54(2): 255-261. |
[9] | 吴焕钦, 张红阳, 李静梅, 朱俊国, 杨沐昀, 李生. 基于伪数据的机器翻译质量估计模型的训练[J]. 北京大学学报(自然科学版), 2018, 54(2): 279-285. |
[10] | 吕书宁, 董志安. 利用URL-Key领域术语识别方法[J]. 北京大学学报(自然科学版), 2018, 54(2): 262-270. |
[11] | 王文超, 吕学强, 张凯, 周建设. 足球赛事战报的自动写作研究[J]. 北京大学学报(自然科学版), 2018, 54(2): 271-278. |
[12] | 应文豪, 肖欣延, 李素建, 吕雅娟, 穗志方. 一种利用语义相似度改进问答摘要的方法[J]. 北京大学学报自然科学版, 2017, 53(2): 197-203. |
[13] | 栗青生, 徐强, 肖建国, 刘泉, 张解放. 汉字动态生成的结构与风格模型[J]. 北京大学学报自然科学版, 2017, 53(2): 219-229. |
[14] | 陈玉敬, 吕学强, 周建设, 李宁. NBA赛事新闻的自动写作研究[J]. 北京大学学报自然科学版, 2017, 53(2): 211-218. |
[15] | 张丽林, 李茂西, 肖文艳, 万剑怡, 王明文. 机器翻译自动评价中领域知识复述抽取研究[J]. 北京大学学报自然科学版, 2017, 53(2): 230-238. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||