商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法

商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法

ID:37067406

大小:2.90 MB

页数:61页

时间:2019-05-17

商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法_第1页
商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法_第2页
商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法_第3页
商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法_第4页
商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法_第5页
资源描述:

《商品在线评价的有用性研究--基于剔除虚假评价的数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、暨南大学硕士学位论文题名:商品在线评价的有用性研究——基于剔除虚假评价的数据挖掘方法Researchontheusefulnessofonlineproductevaluation--dataminingmethodbasedoneliminatingfalseevaluation作者姓名:李建超指导教师姓名及学位、职称:柳向东博士教授学科、专业名称:应用统计学位类型:专业学位论文提交日期:论文答辩日期:答辩委员会主席:论文评阅人:学位授予单位和日期:暨南大学硕士学位论文摘要本文从消费者和商品评价两个个方面着手,运用beaut

2、ifulsoup爬虫工具爬取亚马逊网站商品三体1的所有评价及其每个评论者的所有评价。本文共爬取到1474个用户、20853个评价,以及每个用户的所有评价。之后采用jieba分词工具和哈工大停用词词典对爬取的数据进行文本处理,对处理过的数据采用LSI模型计算文本相似度,结果显示效果良好,通过计算评论者每个评价文档与该评论者总评价文档的相似度的平均值,辅以同一天的最大评论数量来判断该用户是否为水军。在剔除水军评价后,我们对剩下的三体1的所有评价进行建模,本文采取机器学习中的线性回归、逻辑回归与多种分类器方法,通过对比,随机森林回归

3、模型和线性回归模型的均方根误差更低,效果更优,但线性回归模型在测试集中的表现不如随机森林模型,因此本文最终选用随机森林模型对商品评价进行分类排序,结果显示模型效果良好,排在前列的商品评价,其内容较长,同时提供其他商品评价未提及或少量提及的信息,而排在后列的商品评价,其内容较短,也有少量较长的评价,它们所提供的信息大部分已经被其它评价提及过,所以对用户的有用性很低,符合我们的预期。关键词:商品评价;水军评价;TF-IDF模型;线性回归;随机森林I暨南大学硕士学位论文AbstractThispaper,startingwithtw

4、oaspectsofconsumerandcommodityevaluation,usesthebeautifulsoupcrawlertooltocrawlalltheevaluationsoftheAmazonWebProducttrisomy1andallthecommentsofeachcommentator.Thisarticlecrawledto1474users,20853evaluations,andallevaluationsofeachuser.ThenweusetheJiebawordsegmentati

5、ontoolandtheKazakhstandisableworddictionarytoprocessthecrawlingdata,andcalculatethetextsimilaritybyusingtheLSImodelfortheprocesseddata.Theresultsshowgoodeffect.Bycalculatingtheaveragevalueofthesimilaritybetweeneachevaluationdocumentofthecommentatorandthetotalevaluat

6、iondocumentofthecommentator,itissupplementedbythesameday.Thenumberofcommentsislargeenoughtodeterminewhethertheuserisawaterforce.Aftereliminatingthewaterarmyevaluation,wemodelalltheremainingthreebody1.Thispaperadoptslinearregression,logisticregressionandmultipleclass

7、ifiermethodsinmachinelearning.Bycontrast,therootmeansquareerroroftherandomforestregressionmodelandthelinearregressionmodelislowerandtheeffectisbetter,butthelinearregressionmodelistested.Itisnotasgoodastherandomforestmodel,sothispaperusesrandomforestmodeltoclassifyth

8、ecommodityevaluation.Theresultshowsthatthemodelhasagoodeffectandtheproductevaluationinthefrontrowislonger.Atthesametime,itprovidesinformat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。