欢迎来到天天文库
浏览记录
ID:37067406
大小:2.90 MB
页数:61页
时间:2019-05-17
《商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、暨南大学硕士学位论文题名:商品在线评价的有用性研究——基于剔除虚假评价的数据挖掘方法Researchontheusefulnessofonlineproductevaluation--dataminingmethodbasedoneliminatingfalseevaluation作者姓名:李建超指导教师姓名及学位、职称:柳向东博士教授学科、专业名称:应用统计学位类型:专业学位论文提交日期:论文答辩日期:答辩委员会主席:论文评阅人:学位授予单位和日期:暨南大学硕士学位论文摘要本文从消费者和商品评价两个个方面着手,运用beaut
2、ifulsoup爬虫工具爬取亚马逊网站商品三体1的所有评价及其每个评论者的所有评价。本文共爬取到1474个用户、20853个评价,以及每个用户的所有评价。之后采用jieba分词工具和哈工大停用词词典对爬取的数据进行文本处理,对处理过的数据采用LSI模型计算文本相似度,结果显示效果良好,通过计算评论者每个评价文档与该评论者总评价文档的相似度的平均值,辅以同一天的最大评论数量来判断该用户是否为水军。在剔除水军评价后,我们对剩下的三体1的所有评价进行建模,本文采取机器学习中的线性回归、逻辑回归与多种分类器方法,通过对比,随机森林回归
3、模型和线性回归模型的均方根误差更低,效果更优,但线性回归模型在测试集中的表现不如随机森林模型,因此本文最终选用随机森林模型对商品评价进行分类排序,结果显示模型效果良好,排在前列的商品评价,其内容较长,同时提供其他商品评价未提及或少量提及的信息,而排在后列的商品评价,其内容较短,也有少量较长的评价,它们所提供的信息大部分已经被其它评价提及过,所以对用户的有用性很低,符合我们的预期。关键词:商品评价;水军评价;TF-IDF模型;线性回归;随机森林I暨南大学硕士学位论文AbstractThispaper,startingwithtw
4、oaspectsofconsumerandcommodityevaluation,usesthebeautifulsoupcrawlertooltocrawlalltheevaluationsoftheAmazonWebProducttrisomy1andallthecommentsofeachcommentator.Thisarticlecrawledto1474users,20853evaluations,andallevaluationsofeachuser.ThenweusetheJiebawordsegmentati
5、ontoolandtheKazakhstandisableworddictionarytoprocessthecrawlingdata,andcalculatethetextsimilaritybyusingtheLSImodelfortheprocesseddata.Theresultsshowgoodeffect.Bycalculatingtheaveragevalueofthesimilaritybetweeneachevaluationdocumentofthecommentatorandthetotalevaluat
6、iondocumentofthecommentator,itissupplementedbythesameday.Thenumberofcommentsislargeenoughtodeterminewhethertheuserisawaterforce.Aftereliminatingthewaterarmyevaluation,wemodelalltheremainingthreebody1.Thispaperadoptslinearregression,logisticregressionandmultipleclass
7、ifiermethodsinmachinelearning.Bycontrast,therootmeansquareerroroftherandomforestregressionmodelandthelinearregressionmodelislowerandtheeffectisbetter,butthelinearregressionmodelistested.Itisnotasgoodastherandomforestmodel,sothispaperusesrandomforestmodeltoclassifyth
8、ecommodityevaluation.Theresultshowsthatthemodelhasagoodeffectandtheproductevaluationinthefrontrowislonger.Atthesametime,itprovidesinformat
此文档下载收益归作者所有