欢迎来到天天文库
浏览记录
ID:35062518
大小:2.40 MB
页数:57页
时间:2019-03-17
《基于可信度传递的商品垃圾评论检测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于可信度传递的商品垃圾评论检测研究重庆大学硕士学位论文(学术学位)学生姓名:熊士强指导教师:张玉芳教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二O一六年五月二十日ReviewspamdetectionbasedontrustworthinesstransmissionAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByXiongShiqia
2、ngSupervisedbyProf.ZhangYu-fangProf.Specialty:ComputerSystemArchitectureCollegeofComputerScienceofChongqingUniversityChongqing,ChinaMay20th,2016重庆大学硕士学位论文中文摘要摘要随着互联网技术的发展,网络已经对人们表达自己和与他人互动的方式产生了巨大的影响。在线评论在今天的电子商务中起到至关重要的作用,消费者常常会通过网络查看商品或者商店的评论信息,然后做出购买决策。但是由于
3、网络中存在着大量的垃圾评论,消费者会被误导甚至购买质量低下的商品,严重影响购物体验,商家也会因为恶意评论而名誉受损。因此,近年来垃圾评论的智能化检测已成为一个研究热点。本文系统地总结并论述了垃圾评论检测领域的发展现状,分析了该领域相关算法和技术。针对传统基于人工标注的算法性能评价体系工作量大、不利于计算机处理等问题,本文提出使用两个识伪度指标来度量检测算法的性能。主要思想是比较检测前后的数据样本在推荐系统准确度和评论正反馈率上的差异,这种方法为观察垃圾评论检测的效果提供了新的视角,可以作为传统评价体系的补充。本文使
4、用可信度得分作为度量评论、评论者、商品可信程度的指标,通过分析影响评论可信度的关键因素,从中抽取了评论文本的长度、属性覆盖率、时间分布三个特征计算评论初始可信度得分。此外,本文在属性词典的提取中巧妙的将词频统计方法与主题词模型进行融合,并使用成熟的第三方工具word2vec构建提取模型,实验表明,本算法能获取更加丰富而准确的属性词典。受评论关系图和Web事实发现的启发,本文发现了评论、评论者、商品三者之间可信度的相互影响关系,而之前的研究者多把三者作为单一研究对象,忽略了它们之间的关系。因此本文提出了一种基于可信度
5、传递的垃圾评论检测算法,该算法将评论、评论者、商品抽象成图模型,以评论初始可信度得分为基础,以三者构成的网络为线索,构建计算评论、评论者、商品可信度得分的模型,修正评论可信度得分,排除可信度得分小于可信阈值的评论。实验表明,此算法在准确率和召回率上都有一定的提升。关键词:文本挖掘,垃圾评论检测,观点作弊,可信度传递I重庆大学硕士学位论文英文摘要ABSTRACTWiththedevelopmentoftheInternet,ithasdramaticallychangedthewaypeopleexpressthem
6、selvesonlineandinteractwithothers.Onlinereviewsplayacrucialroleintoday’selectroniccommerce.Customersoftentocheckreviewsofproductsorstoresbeforemakingthedecisionofwhatorwheretobuy.However,duetothepervasivespamreviews,customerscanbemisledtobuylowqualityproducts,
7、whiledecentstorescanbedefamedbymaliciousreviews.Hence,inrecentyears,theintelligentdetectionofreviewspamhasbecomeapopulartopicfortheresearchersofartificialintelligence.Thethesisdiscussesthecurrentstatusofthereviewspamdetectionandanalysestherelativealgorithmsand
8、techniques.Contraposetheproblemssuchastraditionalevaluationsystembasedonartificiallabelswhichneedheavyworkloadandwouldbebadforthecomputerprocessing.Thealgorithmperformanceismeasure
此文档下载收益归作者所有