面向推荐系统的评论分析研究

面向推荐系统的评论分析研究

ID:35102127

大小:4.46 MB

页数:67页

时间:2019-03-17

上传者:U-56225
面向推荐系统的评论分析研究_第1页
面向推荐系统的评论分析研究_第2页
面向推荐系统的评论分析研究_第3页
面向推荐系统的评论分析研究_第4页
面向推荐系统的评论分析研究_第5页
资源描述:

《面向推荐系统的评论分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

学校代码:10285学号:201342270441々'、襄1考SOOCHOWUNIVERSITY'亡辕磕照-舌面向推荐織的评论分析硏究’叫:{、..;,.ResearchonUsersReviewsAnalysisfor’l:RecommenbrSvston.:^。;dB^^^B:;^'— ̄ ̄——-:研究生姓^马春平^遍圓^^!指导教隱名陈文亮HI专业名祿品牛工程硏究方向臟織所在院部计算机科学端术学’^:\"1论文提交日期2016^5^ 苏州大学举粒讫文独创性声巧本人巧重声巧:所提交的学化拾文是本人在导帅的指导下,独立进巧研巧工作巧取得的成果。除文中己经注明引巧的内容外,本论文不含其他个人或集体己经发表或巧写过的研巧成果,也不含为获得巧州大学或其它勒肯化构的学垃迪书而巧用迂的材料。对本文的研巧作出里要巧故的个人和集体,均已巧丈中山巧确方式标巧,本人承担本声明的法泮贵任。。他文作者货名;知B期;电干 苏州大学学位论文使用授权声明本人完全了,巧巧巧巧巧学化抢文的规定,*¥苏州大学共于化集即:学化论丈著作权归届苏巧大学,本学化记文电子文巧的巧容巧巧质论文的内谷相一致。茹州大学有权巧国豪图书巧、中国社科院文献信息情巧中也(、、中固科争技术信息硏巧巧含万方巧巧电于出巧巧)中国学术巧刊(光盘肢)电子杂志社送巧本学朽论文的复印件巧电子文档、,化许记文技査巧和惜闽,可科采用宏巧缩巧或其化复制手段保存和汇编学巧成义,可站巧学垃论义的全郁或部分内巧骗入有关抵据库进行检索,涉巧拓文□丰学位讫文屑在年_巧解蜜盾适巧本规定。非玻密记文知.。占古论文巧者《名互:日期:6%!导师兹名;Jx.h曰期;抓小 面向推荐系统的评论分析研究中文摘要面向推荐系统的评论分析研究中文摘要随着互联网和计算机技术的不断进步,信息的数量不断爆炸式增长,导致了普遍的“信息过载”问题。在信息大爆炸的今天,人们迫切需要解决的问题就是如何高效处理并使用这些信息。除了搜索引擎之外,另外一种可以帮助人们快速发现自己所需信息的强大工具就是推荐系统。推荐系统可以根据用户的历史行为、用户生成内容、商品的描述信息等客观数据来建模,从而推测用户的偏好,进而为用户推荐有价值的信息或者商品。近年来,越来越多的研究者注意到使用用户生成内容(如用户评论,地理位置,好友关系等)来设计推荐算法可以提高推荐性能。本文从不同角度研究分析了用户评论,提高推荐准确度,改善推荐质量。本文的主要工作如下:(1)对推荐系统相关的技术背景做了调研,系统地介绍了推荐系统的原理,并比较了一些常用推荐算法的优势和劣势。(2)相对评分来说,用户对物品的评论从用户和物品的各个角度具体表达了用户的观点。利用这些信息更有助于挖掘用户的喜好,本文提出了一种基于词向量的方法挖掘用户评论信息,并结合协同过滤方法设计新的推荐算法,来改善评分预测的效果。(3)针对现有基于评论的推荐算法没有充分考虑个性化的问题,本文通过对评论进行主题分析,挖掘用户喜好,分别建立基于用户和物品的个性化评分预测模型以提高推荐系统的评分预测性能。(4)主要介绍了基于知识库的评论短语抽取和分层式展示方法。高效、准确、用户友好的评论标签展示不仅可以改善用户查阅用户评论的体验,也可以用于构建更加细致用户画像和物品特征,实现更精确的推荐系统。关键词:推荐系统,用户评论,情感分析,文本挖掘作者:马春平指导老师:陈文亮I AbstractResearchonAnalysisofUsers’ReviewsforRecommenderSystemResearchonAnalysisofUsers’ReviewsforRecommenderSystemAbstractWiththefastdevelopmentoftheInternetandcomputertechnology,theamountoftheinformationisexplosiveincreasing,whichhasledto“informationoverload”.Amajorchallengethatshouldbefacedishowtoeffectivelyprocessandusethesevastamountsofdata.Inadditiontosearchengine,thepersonalizedrecommendersystemisanotherpow-erfulandusefultooltohelppeoplefindtherightinformation.Recommendersystemcanprovidesuggestionsandproductstheusersinterestedinactivelybasedonusers’historybehavioranditeminformation.Inrecentyears,moreandmoreresearcherspayattentiontorecommendersystembasedonusergeneratedcontent,suchasusers’review,geographiclocationsandsocialre-lationship.Inordertoimprovetheefficiencyandaccuracyoftheexistingrecommendersystems,thepaperdesignandimplementseveralrecommendationalgorithmsbyanalyzingusers’reviews.Themaincontentofthispaperincludesthefollowingaspects:(1)Greathardworkhasbeenmadeonthetechnologyofrecommendersystem.Simplyintroducestheprincipleofrecommendersystem,andcomparessomecommonrecommendationalgorithms.(2)Comparedtouserrating,usercommentdemonstratestheiropinionsondifferentfacetsoftheitem.Bytakingfulladvantageofusergeneratedcontents,userpreferenceshallbefurtherdiscovered.Anapproachtousingword-embeddingtoanalyzereviewcommentsanddesignanovelsystemtopredictthescoresisproposed.(3)Existingrecommendersystemsdonottakefulladvantageofpersonalization.Toaddressthisproblem,anovelapproachisproposedtominetheopinionsandpreferenceofuserstobuildapersonalizedmodelforeachuseroritem.(4)Anapproachoftagextractionofuseropinionsbasedonentityknowledgebaseandanovelmethodofhierarchicalpresentationofopiniontagisintroduced.OpiniontagsII ResearchonAnalysisofUsers’ReviewsforRecommendersystemAbstractwithefficiency,accuracyanduserfriendlycannotonlyimprovetheexperienceofreviewreading,butalsocanbeusedtoimplementrecommendersystemwithhigheraccuracybybuildingtheuserprofileanditempresentation.Keywords:Recommendersystem,Users’reviews,SentimentAnalysis,TextMiningWrittenby:MaChunpingSupervisedby:ChenWenliangIII 面向推荐系统的评论分析研究目录第一章绪论..........................................................................................................................11.1研究背景和意义.....................................................................................................11.2国内外研究现状.....................................................................................................21.3本文主要工作.........................................................................................................51.4论文组织结构.........................................................................................................6第二章推荐系统技术简介..................................................................................................82.1推荐系统原理.........................................................................................................82.2常用推荐算法及研究进展.....................................................................................92.2.1协同过滤推荐..............................................................................................92.2.2基于内容的推荐........................................................................................112.2.3混合推荐....................................................................................................122.3数据源简介...........................................................................................................132.3.1推荐系统常用数据集................................................................................132.3.2本文使用数据集简介................................................................................142.4推荐系统评测指标...............................................................................................152.4.1评分预测....................................................................................................162.4.2Top-N推荐.................................................................................................162.5推荐系统面临的挑战...........................................................................................17第三章基于评论主题分析的评分预测............................................................................193.1引言.......................................................................................................................193.2基于评论的推荐算法...........................................................................................203.2.1相关定义....................................................................................................203.2.2评论主题分析............................................................................................213.2.3基于评论主题的评分预测........................................................................233.2.4组合推荐算法............................................................................................253.3实验结果与分析...................................................................................................263.3.1实验设置....................................................................................................26 面向推荐系统的评论分析研究3.3.2实验结果分析............................................................................................263.4本章小结...............................................................................................................28第四章基于挖掘评论个性化特征的评分预测................................................................294.1引言.......................................................................................................................294.2基于评论主题的个性化模型...............................................................................304.2.1相关定义....................................................................................................304.2.2评论主题分析............................................................................................314.2.3用户和物品的特征表示............................................................................314.2.4基准模型....................................................................................................324.2.5个性化模型................................................................................................324.3实验结果与分析...................................................................................................334.3.1实验设置....................................................................................................334.3.2参数选定....................................................................................................334.3.3实验结果分析............................................................................................344.4本章小结...............................................................................................................35第五章基于实体知识库的评论短语抽取........................................................................365.1引言.......................................................................................................................365.2知识库构建...........................................................................................................385.2.1实体知识库构建现状分析........................................................................385.2.2实体知识库构建方法................................................................................405.2.3基于实体知识库的属性识别....................................................................415.3评论情感分析.......................................................................................................435.3.1基于机器学习的情感分析........................................................................445.3.2基于规则的情感分析................................................................................445.4综合实验结果与分析...........................................................................................455.5评论标签分层展示方法简介...............................................................................455.6本章小结...............................................................................................................46第六章总结与展望............................................................................................................476.1研究工作总结.......................................................................................................47 面向推荐系统的评论分析研究6.2下一步工作展望...................................................................................................47参考文献..............................................................................................................................49攻读硕士学位期间取得的科研成果..................................................................................55攻读硕士学位期间参与的科研项目..................................................................................55致谢..................................................................................................................................56 面向推荐系统的评论分析研究第一章绪论第一章绪论本章首先介绍推荐系统的研究背景和意义;然后概述国内外的研究现状,并引出本文的主要研究内容,进而概要地介绍了本文的主要工作;最后给出本文的组织结构。1.1研究背景和意义随着信息技术和互联网的发展,人们逐渐由信息匮乏的时代步入了信息过载的时代。早在2006年,著名商业杂志《经济学人》就统计出人每天读大概10MB的数据,听到400MB的数据,每秒看到1MB的信息。加州大学在2014年统计,到2015年个人每天接受信息总和将达到74GB。中国最大的在线零售平台——淘宝网目前拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8万件商品。为了解决信息过载的问题,众多科研工作者提出了很多创造性的方法,其中具有代表性的是搜索引擎和推荐系统。以谷歌,百度为代表的搜索引擎可以让用户通过搜索关键字发现自己需要的信息。搜索引擎帮助用户从亿万网络信息中迅速定位到对自己有用的信息,但是需要用户提供准确的关键字,而用户常常无法准确描述自己的需求。因此推荐系统应运而生,推荐系统不需要用户精准地描述自己的需要,而是通过分析用户的历史行为为用户建模,主动给用户推荐能够满足他们兴趣和需要的信息。推荐系统的概念在传统零售店早有使用,比如大多数商场会把热门商品放在用户必经的通道旁,增加它们被选购的机会,这种推荐算法的思想就是把销量最好的商品推荐给所有用户。另外社会化推荐(socialrecommendation)也常常发生在人们日常生活中,比如想看电影时会找经常看电影的朋友,让他们推荐。与传统零售业的推荐方法和社会化推荐相比,如今在线推荐系统不仅突破了空间和成本的限制,而且可以针对个性化需求提供符合不同用户需求的信息。随着计算机技术的不断发展,在过去的10多年中,推荐算法成为科技领域内的研究热点,推荐算法不断更新换代,并成功应用到广大商业公司中。著名在线视频网站Netflix在其宣传资料中宣称,其60%的视频点击量是经过推荐给用户而获得的,Netflix非常重视个性化推荐技术,并在2006年起开始举办著名的NetflixPrize推荐算法比赛。该比赛悬赏100万美元,希望将其推荐算法的预测准确度提升10%。在电1 第一章绪论面向推荐系统的评论分析研究子商务领域,推荐系统已经被证明是为用户过滤信息、推荐有效产品、提高用户体验、增加企业营收的一个强大而流行的工具。然而随着数据规模的急剧增长和用户需求的多样性变化,类似基于评分的协同过滤和基于内容的推荐算法早已无法满足用户和企业的共同需要。随着web2.0和社交网络的发展,越来越多的用户开始在网络上分享自己的经验和智慧。在第二代互联网浪潮中,用户不再是被动的参与者,而变成内容的生产者。[2]大量的用户生成内容(UserGeneratedContent,UGC),以及自然语言处理、数据挖掘、文本分析、情感分析等技术的不断进步给推荐系统带来了新的生机。推荐系统利用用户生成内容(例如用户评论,好友关系,地理位置,用户标签等)可以更精确地分析用户和物品的特征,提高推荐性能。在现实生活中,为了提高用户体验、追踪用户喜好和消费习惯,绝大多数电子商务网站都为用户提供了对购买过的商品发表评论的功能。相对于评分,用户评论更加具体并详细地反应了用户对物品的喜好程度和用户期望的信息,也可以为其他用户提供参考。因为评论信息资源的丰富和文本分析技术的日渐成熟,基于评论分析的推荐系统近年来逐渐成为研究热点。基于评论分析的推荐系统利用文本分析技术,挖掘出用户的兴趣偏好和物品的特征,然后根据用户的兴趣偏好推荐符合其期望的商品,这样不仅为推荐系统带来了丰富的内容信息,也为电子商务提高了用户忠诚度,并促进推荐系统和文本分析进一步共同的发展。1.2国内外研究现状推荐系统的研究始于20世纪90年代,其研究发展过程中大量借鉴了相关领域的技术,包括人工智能、信息检索、管理科学、预测理论等等。推荐系统最重要的组成部分为推荐算法,推荐算法的性能直接影响了推荐系统的整体性能,所以推荐系统的研究工作也一直以推荐算法为核心展开。经过进30年左右的发展,推荐算法层出不穷,但目前常用的经典算法主要分为三类:基于内容的推荐算法(Content-Based[3][4,5]Filtering,CBF),协同过滤算法(CollaborativeFiltering,CF),混合推荐算法[6](HybridRecommendation,HR)。基于内容的推荐是信息检索和信息过滤技术的延伸,1985年麻省理工学院的[7]Malone等人建立了基于CBF的电子邮件过滤原型系统InformationLens。1995年卡[8,9]内基梅隆大学的Armstrong等人开发了网页浏览路径推荐系统WebWatcher,该系统分析用户浏览历史,形成用户画像,并将与用户画像相匹配的网页主动推荐给用户。2 面向推荐系统的评论分析研究第一章绪论基于内容的推荐对网络大量存在的图片、视频、音乐等内容无法进行很好的解析,而且过度依赖用户的历史行为,无法挖掘用户潜在的兴趣和需求。协同过滤以用户群体的行为及基础进行推荐,分为基于用户的协同过滤和基于物品的协同过滤。1992年,Xerox公司在PaloAlto的研究中心为了解决电子邮件繁多[10]无法分类的问题而设计了邮件分类过滤系统Tapestry,它是最早基于协同过滤设计的系统。1994年明尼苏达大学GroupLens实验室Resnick教授的团队创建了第一个自动推[11,12]荐系统GroupLens,提供新闻和文章的推荐。GroupLens系统对推荐系统的发展具有里程碑的意义,其建立的自动推荐系统框架成为后续基于协同过滤的推荐系统的基础。该实验室还公开了MovieLens数据集,内容为用户对电影的评分数据,该数据集一度成为推荐系统研究领域内的国际标准数据集。2003年亚马逊发表了一篇关于个性化推荐算法的论文,创造性地将原来的算法更改为基于物品的系统过滤算法,宣[63]称网站在更新算法之后推荐系统的推荐效果和扩展性都得到大幅度提升。2010年[13]YouTube发表了一篇有关个性化推荐的论文,论文提到YouTube采用了一种新的推荐算法进行视频推荐,但算法的核心思想还是基于物品的协同过滤推荐算法。图1.1京东推荐系统界面协同过滤推荐算法由于简单有效等优点在实际应用中得到广泛推广,但也有无法解决数据稀疏性,扩展性差等缺点。为了发挥协同过滤和基于内容的推荐算法各自的[14]优点,研究人员提出了将二者结合的混合推荐算法。1997年,斯坦福大学开发了Fab网页混合推荐系统,该系统首先分析用户的访问历史生成用户画像,然后将用户画像用于协同过滤算法中计算不用用户间的相似性,确定与目标用户最相似的用户群。近10年来,随着计算机技术的不断发展,研究者对于推荐系统的研究热情不减3 第一章绪论面向推荐系统的评论分析研究反增。2006年在线DVD租赁网站Netflix举办了NetflixPrize推荐系统比赛,悬赏100万美元系统希望将自己的Cinematch系统预测准确度提高10%,该项赛事吸引了180多个国家数万支由专家学者组成的团队参赛,该项赛事很大程度上推动了推荐技术的研究热情。从2007年开始,美国计算机协会(ACM)定期召开了仅限于推荐系统领域的研究会议(ACMRecSys’07),该会议在其后的几年里都专注了当时推荐系统研究的热点和发展趋势,涌现了大量高质量的关于推荐系统的研究成果。图1.2豆瓣FM的用户界面相比国外推荐系统研究的深入,国内的推荐系统研究起步较晚,但国内的互联网企业对推荐系统研究的重视程度非常高,2011年百度世界大会上,百度将推荐引擎、云计算、搜索引擎列为未来互联网重要战略规划及发展方向。如表1.1所示,推荐系统在国内外已经得到广泛的应用,国内主流电子商务网站淘宝网、京东、当当网、美团网都部署了自己的商品推荐系统。图1.1是京东的个性化推荐列表,用户购买了机器学习相关书籍之后,京东会以“猜你喜欢”的形式在首页推荐类似书籍。豆瓣FM是国内个性化音乐推荐系统的应用代表,其界面非常简单,如图1.2显示,用户无法自己选择歌曲,只能接受系统推荐,针对推荐的歌曲用户可以点击心形按钮表示喜欢该歌曲,或者点击垃圾桶形状的按钮表示讨厌该歌曲,或者直接换一首歌。豆瓣FM经过一段时间的用户反馈就可以准确了解用户的喜好,从而进行更精准的音乐推荐。随着web2.0的发展和计算机信息处理技术的不断进步,越来越多的研究人员把研究热情转移到通过分析用户生成内容(包括用户评论,好友关系等)来挖掘用户、物品特征,从而提高推荐系统的性能。其中尤其是用户评论的信息资源丰富,研究价值高,评论分析技术取得了很大的进步,因此基于评论分析的推荐系统近年来得到重[41][42]要发展。Ganu等人通过人工标注用户评论的主题和情感,然后训练SVM模型,将评论的角度和情感进行分类,最后将用户评论的正面情感、负面情感进行综合作出4 面向推荐系统的评论分析研究第一章绪论[43]评分预测。Qu等人提出意见袋模型(bag-of-opinionsmodel),用来综合表示用户评论中评价词根,修饰词和否定词。利用意见袋和用户评分训练线性模型进行评分预[44]测。McAuley等人提出利用HFT(HiddenFactorsasTopics)模型将评分和评论信息结合来做推荐。HFT将评分中的隐含因子和评论中的隐含主题匹配生成用户或者[45][46]物品的特征矩阵,然后用SVD算法来做评分预测。Zhang等人提出基于内容协同过滤(Comment-basedCollaborativeFiltering,CCF)的方法,通过对用户评论进行主题分析挖掘评论中有关用户和物品的主题,综合用户对物品的评分进行建模,预测用户对物品的评分。这些基于评论分析的研究工作表明,评论比传统的评分、购买、浏览等用户行为更有助于挖掘用户的偏好和物品特征,从而提高推荐系统的推荐精准度。表1.1推荐系统应用实例领域推荐系统应用电子商务Amazon,淘宝,京东社交网络Facebook,Twitter,LinkedIn,微博新闻GroupLens,Digg,今日头条视频Netflix,Hulu,优酷,爱奇艺音乐Pandora,Last.fm,豆瓣音乐图书GoogleReader,Flipboard,豆瓣图书商户,酒店Yelp,美团1.3本文主要工作本课题的研究目标是对在线评论进行语义分析,挖掘用户和物品的特征,利用这些特征提高推荐系统的性能和体验。本文的研究内容主要包括如下三个方面:(1)基于评论主题分析的评分预测主要是提出一种基于词向量的方法挖掘用户评论信息,构建在线评论的主题分布,并结合协同过滤的方法设计新的推荐算法,来改善评分预测的效果。在构建在线评论的主题分布时,综合考虑无监督方法、有监督方法、和半监督方法,对预测效果分别进行评测。(2)基于评论主题的个性化评分预测模型主要提出通过对评论进行主题分析,挖掘用户的喜好,建立个性化的评分预5 第一章绪论面向推荐系统的评论分析研究测模型,从而提高推荐精度。该内容是在基于评论主题分析的评分预测的基础之上,分别从用户和物品的角度构建个性化模型,为每个用户或者物品生成个性化特征权重,并进行个性化推荐。(3)基于实体知识库的评论短语抽取主要介绍了基于知识库的评论短语抽取和分层式展示方法。高效、准确、用户友好的评论标签展示不仅可以提高用户查阅用户评论的体验,这些标签也可以用于构建更细致的用户画像和物品特征,实现更精确的推荐系统。1.4论文组织结构本文共分为六个章节,各章节的主要内容如下:第一章绪论本章首先介绍了本文的研究背景和意义,然后对国内外研究现状进行了阐述和分析,最后给出了本文的主要研究内容和结构安排。第二章推荐系统技术简介本章首先介绍推荐系统的原理;然后概述常用推荐系统算法,包括基于内容的过滤,协同过滤,混合推荐算法,之后简介推荐系统常用数据资源,本文使用的数据集及推荐算法评价标准,最后指出了推荐系统在新时代面临的挑战。第三章基于评论主题分析的评分预测用户对物品的评论从用户或者物品的各个角度具体表达了用户的观点。利用这些信息更有助于挖掘用户的喜好。本章提出一种基于词向量的方法挖掘用户评论信息,并与基于LDA和手工标注的方法进行比较,实验证明基于词向量的评论主题分析方法可以提高推荐系统评分预测准确度。最后将基于词向量的方法结合协同过滤的方法设计新的组合推荐算法,从而改善评分预测的效果。第四章基于评论主题的个性化评分预测模型针对现有基于评论分析的推荐算法没有充分考虑个性化的问题,本章通过对评论进行主题分析,挖掘用户的喜好,分别建立基于用户和物品的个性化评分预测模型。在真实数据集上进行验证,结果表明该模型有效地提高了评分预测准确度。第五章基于实体知识库的评论短语抽取电子商务网站中一个商品常常有成千上万条评论,给用户带来了阅读障碍,评论标签展示是一个有效的解决方案。针对常见评论短语标签抽取和展示方法的不足,本6 面向推荐系统的评论分析研究第一章绪论章的主要内容是介绍了基于实体知识库的评论短语抽取和展示方法。评论短语的抽取可以构建更细致的用户画像和物品画像,实现更精确的推荐系统。第六章总结与展望本章是对本文研究内容的总结,指出了本文的贡献和不足之处,并提出了下一步工作的研究方向。7 第二章推荐系统技术简介面向推荐系统的评论分析与研究第二章推荐系统技术简介本章首先介绍推荐系统的原理;然后概述常用推荐系统算法,包括基于内容的推荐,协同过滤,混合推荐算法;之后简介推荐系统常用数据资源,本文使用的数据集及推荐算法评价标准;最后指出了推荐系统在新时代面临的挑战。2.1推荐系统原理推荐系统是一种将有用信息推荐给用户的软件系统和工具,也是解决信息过载的有效方法之一。推荐系统为用户推荐的信息可以帮助用户做出决策,比如在音乐、电影、新闻的选择方面。推荐系统的定义一般分为形式化定义和非形式化定义,被广泛认可的非形式化定[15]义由Resnick和Varian在1997年提出,“它是以电子商务网站为平台,为消费者提供商品的信息和建议,协助他们决定应该购买什么产品,模拟推销人员协助消费者完成购买过程”。推荐候选对象、用户、推荐算法这三个要素构成了一个完整的推荐系[16]统,Adomavicius等人指出,推荐系统形式化定义为:推荐候选对象由I表示,一般指新闻,音乐,书籍,商品等,用户对象由U表示。其中U和I的空间非常庞大,比如淘宝的百度百科介绍,淘宝每天有6000万的固定访客,同时每天的在线商品数超过8亿件。用Φ表示效用函数来衡量一个推荐对象i对于一个用户u的有用性,即Φ:U×I→R,其中R表示为指定范围内的全序非负实数,例如1,2,……,5这样的评分区间。于是对于每个用户u∈U,寻找最大的推荐度R所对应的那些推荐候选对象i∈I正是推荐系统所要研究的问题,具体形式化可以表示为:'uU,iargmax(,)ui(1-1)uiI在推荐系统中,常常用评分来表示一个推荐对象对用户的有效性,它表示用户对商品的喜好程度,比如在豆瓣电影中用户对自己喜欢的电影打高分,大众点评用户会对自己不满意的饭店打低分。推荐系统研究者最关注的是推荐系统中的推荐算法要素。推荐算法也是推荐系统的核心,决定着推荐系统的性能。最简单的推荐算法就是使用排行榜的方式将一些热门商品推荐给所有用户,但是这种推荐算法不仅无法满足广大用户个性化需求,而且容易造成本来畅销的商品更畅销,而大量的非畅销商品越来越无人问津。如何根据不同的应用场景设计不同的推荐算法,满足不同用户的个性8 面向推荐系统的评论分析研究第二章推荐系统技术简介化需求,并提高推荐有效性逐渐成为一个热门的研究课题。2.2常用推荐算法及研究进展随着计算机技术的不断发展,在过去的20多年中,推荐算法成为科技领域内的研究热点,推荐算法也不断更新换代。一般将推荐算法分为协同过滤推荐、基于内容的推荐、混合推荐算法,下面将对这几类算法及它们的优缺点进行介绍。2.2.1协同过滤推荐在日常生活中,人们想看一部电影的时候,经常会去问一下看过的人的意见再做决定,或者想听音乐的时候,向有共同爱好的人咨询。协同过滤算法(CollaborativeFiltering,CF)就是类似这样利用群体的智慧进行推荐。图2.1基于用户的协同过滤基本原理图2.2基于物品的协同过滤基本原理9 第二章推荐系统技术简介面向推荐系统的评论分析与研究传统的协同过滤算法一般分为基于用户的协同过滤算法(User-basedCollabora-tiveFiltering,UCF)和基于物品的协同过滤算法(Item-basedCollaborativeFiltering,[11]ICF)。Resnick等人最早提出基于用户的协同过滤算法,该算法的中心思想是兴趣爱好相同的用户之间具有相似的评分行为,原理如图2.1所示。该算法根据用户的历史行为计算用户之间的相似程度,综合相似度较高的用户对产品的评分,预测目标用户对该产品的评分从而将预测评分较高的产品推荐给目标用户。公式如下:1Rˆij=smii(,)kRkj(2-1)CkZi其中Z表示与用户i相似的用户集合,R表示用户k对物品j的评分,sim(i,k)表ikj[17]示用户i和用户k之间的相似度。C是正则化的常数。随后,BadrulSarwar等人提出基于物品的协同过滤(item-based),该算法的思想是能够满足用户喜好的产品跟用户以前评分较高的产品比较相似,原理如图2.2所示。与基于用户的协同过滤不同的是,基于物品的协同过滤算法计算物品之间的相似程度,将与目标用户之前评分较高的产品相似度最高的若干产品推荐给目标用户,公式如下:1Rˆiijk=smjkRi(,)(2-2)CkZj其中Z表示用户i购买过的与物品j相似的物品集合,R表示用户i对物品kjik的评分,sim(j,k)表示物品j和物品k之间的相似度,C是正则化常数。协同过滤算法有很多优点,比如简单、容易实现、效率高,同时保证较高的推荐准确性,因此在20世纪90年代后的十几年里得到了很大的发展和应用。基于用户的协同过滤算法早在1992就已经在电子邮件的个性化推荐系统Tapestry中得到应用,1994年被GroupLens用来实现新闻的个性化推荐。而基于物品的协同过滤算法在商务电子网站亚马逊和在线DVD租赁网站Netflix中得到广泛应用。总的来说,基于用户的推荐系统主要反映和用户兴趣相似的小群体的热点,更适合用户较少的场景;基于物品的推荐系统主要着重于维系用户的历史行为,使推荐更加个性化,适用于物品数目远小于用户数目的场景。随着电子商务的快速发展,用户和商品数目急剧增加,协同过滤算法在大规模数据处理、计算效率、可扩展性、数据稀疏性、冷启动等方面都面临着新的挑战。10 面向推荐系统的评论分析研究第二章推荐系统技术简介2.2.2基于内容的推荐[18]基于内容的推荐算法(Content-basedRecommendation,CBR)的核心思想是将与用户之前好评的物品相似的物品推荐给用户。图2.3基于内容的推荐流程图基于内容的推荐在思想上与基于物品的协同过滤算法相近,但是在实现方法上,基于内容的推荐是基于物品的内容信息作出推荐,而不是只利用用户对物品的评分,比如某用户经常在视频网站上观看杜琪峰导演的电影,该视频网站根据该用户的行为会向该用户推荐杜琪峰导演的其他电影。基于内容的推荐主要工作是挖掘物品的特征和生成表示用户兴趣的用户画像,并将用户画像和物品特征进行相似度匹配,同时根据推荐后的用户反馈更新用户画像。[19]FrancescoRicci等人在《RecommenderSystemsHandbook》中指出,一般基于内容的推荐过程可以分为三个步骤,这三个步骤分别由三个独立的单元处理:内容分析器(ContentAnalyzer)、画像生成器(ProfileLearner)、过滤器(FilteringComponent),推荐流程如图2.3。内容分析器是信息检索相关技术的运用,它从非结构化信息中挖掘结构化相关信息,因为推荐对象(例如网页信息,新闻,商品描述等等)本身或者其描述信息往往是非结构化信息,无法直接应用于推荐系统,需要将它们转化成一定[20]形式的结构化信息,如将新闻利用词频-倒排文档频率(TD-IDF)方法表示成关键11 第二章推荐系统技术简介面向推荐系统的评论分析与研究词向量。内容分析器的处理结果将作为画像生成器和过滤器的输入信息。画像生成器是收集用户历史行为(例如用户购买过的商品、看过的电影、听过的音乐等等),并用相关机器学习算法将用户的历史行为转化成用户画像。过滤器计算目标用户的用户画像和物品特征之间的相似度,将相似度低的物品过滤,将相似度高的物品推荐给目标用户。当然用户的爱好不是一成不变的,为了更新用户画像,推荐系统需要从用户那里收集反馈信息,反馈信息包括显示反馈信息和隐式反馈信息。显示反馈包括用户的好评与差评,用户打分,评论文本。而获取用户隐式反馈往往需要系统检测并分析用户的相关行为。基于内容的推荐有很多优点,首先基于内容的推荐用户之间是独立的,别人的行为(可能是作弊行为)无法影响到自己;基于内容的推荐不存在物品冷启动的问题,新的物品加入到系统之后可以立刻得到推荐;基于内容的推荐有很好的可解释性,它可以在推荐的同时清楚明白地向用户说明推荐理由,这种特性对增加用户的忠诚度有很大的帮助。然而基于内容的推荐的缺点也不容忽视,首先对物品抽取特征很困难,处理非结构化对象需要大量的人工操作。而且基于内容的推荐无法挖掘用户潜在兴趣,推荐的商品只与用户过去喜欢的商品类似,过分特殊化(Over-specialization),对用户来说没有惊喜,导致推荐系统的新颖性较低。2.2.3混合推荐协同过滤算法和基于内容的推荐算法在不同的应用场景中各自都有自己的优势和不足,因此为了更好的发挥不同推荐算法的优势,在现实场景中常常将不同的推荐系统按不同形式进行结合以提高推荐系统的准确率,从而形成一种基于多种推荐算法[21]和推荐策略的混合推荐算法。[14,22-24]在研究和应用中,最广泛组合方式是基于内容的推荐和系统过滤的组合。按照协同过滤和基于内容的推荐两种算法结合的阶段,可以分为前融合、中融合、后[25]融合三种融合方式,也可以按照基于内容的推荐和系统过滤不同的组合方式将混合[16,26]推荐划分类别,主要的组合方式有:[23,24](1)加权组合(WeightedCombination):在该组合方式中,协同过滤算法和基于内容的推荐算法同时工作,两种算法的评分预测结果按一定的权重分配方案进行组合,形成最后的评分。加权组合是最简单,同时也是计算量最大的组合方式,而12 面向推荐系统的评论分析研究第二章推荐系统技术简介且要求两种推荐算法采用同样的评分区间。[22](2)特征组合(FeatureCombination):传统的协同过滤算法只利用用户简单的历史行为(例如点击、浏览、评分等),而基于内容的推荐只利用用户和物品的内容信息。在特征组合的混合推荐中,协同过滤算法和基于内容推荐算法可以互相利用对方的特征从而提高推荐性能。[29](3)混合(Mix):两种推荐算法同时工作,如果两种推荐算法的推荐结果一致,则将该推荐结果推荐给用户;当推荐结果不同时,按照一定的仲裁策略进行投票,将得票高的结果推荐给用户。[27,28](4)动态切换(DynamicSwitching):根据不同的用户需求和运行状态,混合系统可以在两种推荐算法之间进行动态切换,该混合推荐算法在同一时刻只运行一种推荐算法。[30](5)级联(Cascade):该组合方式的特点是分阶段进行推荐,使用一种推荐算法产生初级推荐结果,如果该结果无法满足用户的需求或者无法达到系统要求的准确性,可以使用另一种推荐算法对初级推荐结果进行过滤和精炼,从而提高推荐系统的准确性。2.3数据源简介2.3.1推荐系统常用数据集在推荐系统不断发展的20多年中,经过不同研究机构和团队对真实数据集的收集,推荐系统领域内已经逐渐确定了一些具有国际标准的试验数据集,常用数据集有:[31]1.MovieLens数据集:MovieLens数据集由明尼苏达大学GroupLens研究小组从MovieLens电影评分网站收集到的评分数据构成。该数据集包含用户信息,电影基本信息以及用户评分和评分时间,评分区间为[1,5]。该数据集按数据规模划分为两个数据集,适用于不同规模的算法.小规模的数据集是943个独立用户对1682部电影作出的10000次评分;大规模的数据集是6040个独立用户对3900部电影作出的大约100万次评分。[32]2.EachMovie数据集:HP/Compaq的DEC研究中心在网上架设EachMovie电[33]影推荐系统对公众开放,该数据集是从该推荐系统收集的评分数据,包含用户基本信息,电影分类信息,用户评分和评分时间,评分区间为[0.0,1.0]。该数据集包含了13 第二章推荐系统技术简介面向推荐系统的评论分析与研究72916名用户对1628部电影的2811983个评分。早期大量的协同过滤的研究工作都是基于该数据集。[34]3.BookCrossing数据集:该数据集由Cai-NicolasZiegler博士通过爬虫程序从BookCrossing图书社区收集的图书评分数据构成,该数据集包含278858个用户对271379本书进行的评分,包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographicfeature)都以匿名的形式保存并供分析。[35]4.Netflix数据集:该数据集来自于在线DVD租赁网站Netflix的数据库。Netflix于2006年公布此数据集并设立百万美元的奖金(NetflixPrize),征集能够使其推荐系统性能提升10%的推荐算法和架构。该数据集包含了480189个匿名用户对大约17770部电影作出的大约10亿次评分,评分区间为[1,5]。图2.4评论用户数分布图2.3.2本文使用数据集简介由于本文研究的是中文领域内基于用户评论分析的推荐系统,因此实验采用了大众点评网的数据集。大众点评网(www.dianping.com)成立于2003年,也是全球最早建立的独立第三方消费点评网站,为用户提供商户信息、消费点评及消费优惠等信息服务。本文使用的数据集全部来自上海地区,包含自大众点评2003年成立到2009年中,703439个用户对51538个商户作出的441万多条评论。评论信息包含用户名、商户名、总体评分,以及评论文本内容。根据实验需要,过滤数据集中没有评论文本信息的评论,因此本文使用的数据集包含638633个用户对48739个商户的362多万条评论,其中88.6%的用户评论数在1到10条之间,平均每个用户评论5.6次,评论14 面向推荐系统的评论分析研究第二章推荐系统技术简介人数分布如图2.4所示。平均每个商户拥有74.3条评论,评论商户数分布如图2.5所示。本文实验按4:1的比例随机将数据集分为测试集和训练集,其中训练集的评分人数分布如表2.1所示。图2.5评论商户数分布表表2.1评分人数分布评分人数占比14.23%24.40%327.21%445.39%518.77%2.4推荐系统评测指标推荐系统的评测指标用于评价一个推荐系统各方面的性能,常见的评测指标有预测准确度、覆盖率、多样性、新颖性、信任度、实时性、用户满意度等等。这些评测指标有些可以通过离线实验获得,有些需要进行用户调查,还有一些评测指标只能通过在线评测。预测准确度是最重要的评测指标,并且可以通过离线实验计算,因此从推荐系统诞生的那一刻起,学术界几乎都是通过评估预测准确度来评价一个推荐系统。预测准确度根据不同的推荐方式有不同准确度指标。推荐方式主要有评分预测和Top-N推荐两种。15 第二章推荐系统技术简介面向推荐系统的评论分析与研究2.4.1评分预测很多拥有推荐功能的网站都会有一个用户打分功能。用户打分是一个重要数据资源,通过用户的打分可以分析出用户对物品的喜好。一般用户越喜欢一个商品打分就越高,因此也可以通过预测用户对物品的打分,将预测打分高的商品推荐给目标用户。预测用户对物品打分的行为被称为评分预测。评分预测的预测准确度一般通过平均绝对偏差(MeanAbsoluteError,MAE)和均方根误差(RootMeanSquareError,RMSE)来计算。MAE的计算公式如下:1MAE=rrˆuiui(2-3)n(u,i)TRMSE的计算公式如下:2rrˆuiui(u,i)TRMSE=(2-4)T上述公式中T是测试集,rˆ表示系统对目标用户u在物品i上的预测评分,r是真uiui实评分,n表示预测的次数。显然MAE和RMSE的值越低,算法的预测准确度越高。表2.2TP,FP,FN,TN四种分类情况匹配不匹配truepositives(TP,匹配的饭店falsepositives(FP,不匹配的预测判定为匹配)饭店判定为匹配)falsenegatives(FN,匹配的饭truenegatives(TN,不匹配未预测店判定为不匹配)的饭店判定为不匹配)2.4.2Top-N推荐推荐系统为目标用户提供一个个性化的推荐列表,这种推荐方式称为Top-N推荐。评估Top-N推荐采用常见的3个评测指标:精确率(Precision),召回率(Recall)和F值(F-Measure)。精确率又称精度,以下简称为P。召回率又称查全率,以下简称为R。以为用户预测与之喜好匹配的饭店为例,表2.2定义了truepositives,falsepositives,falsenegatives,truenegatives四种分类情况。16 面向推荐系统的评论分析研究第二章推荐系统技术简介精确率和召回率的计算公式如下:TPP(2-5)TPFPTPR(2-6)TPFN实际评估一个系统时,应同时考虑P和R,所以常采用综合两个值进行评价的办法,综合指标F值就是其中一种。F值是P和R的加权调和平均,计算公式如下:2(1)PRF(2-7)2PR其中,决定对P侧重还是对R侧重,通常设定为0.5、1或2。当取值为1,即对二者一样重视,这种情况下的F值被简称为F1值。2.5推荐系统面临的挑战推荐系统经过20多年的长足发展,已经取得了非常突出的成就。但面对数据规模的急剧增长和用户需求的不断变化,类似于协同过滤的推荐算法早已无法满足用户的需求。但是无数专家和学者不断投身于推荐方法和技术的创新中,使得推荐算法不断进步,推荐性能不断提高,但新环境下仍然面对不少的挑战:1.大数据处理和增量计算问题:几乎所有流行的电子商务网站上都有千万计的用户和商品,如何高效快速地处理这些数据成为迫在眉睫的问题。尤其是算法的时间复杂性得到了空前的重视,一个高效的算法通常要求其复杂性很低或者能够很好的进行并行计算。有一种解决方案是采用增量计算,即当新的用户或者新的商品进入系统时不需要在整个数据集上进行重新计算,而只需要对新增节点和连边进行计算,然后对原来的结果进行微调,快速得到最新结果。但是这种结果随着新加入的信息越来越多误差也会越来越大,严重影响推荐系统的性能。2.冷启动问题:冷启动问题一直是推荐系统的大难题,推荐系统一般要分析用户和商品的历史数据来进行推荐,但是新用户或者新商品罕有可以利用的信息,很难17 第二章推荐系统技术简介面向推荐系统的评论分析与研究作出精准的推荐。3.多样性和准确度的矛盾问题:为了追求准确度,系统往往会推荐流行的商品或者评分预测非常高的物品,但是这种推荐方式不一定能带来很好的用户体验,因为用户很可能已经知道这些热销的商品。因为无法得到用户个性化推荐,用户得到有用的信息较少,可能降低用户对系统的好感。然而,推荐多样或者新颖的商品给用户不仅有较大的风险会降低准确度,而且可能推荐的商品是用户所不需要的,这样无疑给用户带来不好的体验。多样性和准确度之间的关系错综复杂,至今尚未有很好的解决方案。4.推荐系统评估:因为有大量的公开数据集和便于进行离线实验,评分预测一直是推荐系统研究的热点,绝大多数推荐系统的研究工作都是基于用户评分数据的评分预测,很多研究工作都集中精力在提高评分预测的RMSE和MAE上。但是推荐系统根本目的是找到用户感兴趣的商品,而不是预测用户使用该商品后会打多少分。一个商品用户使用后会打很高的分数并不代表用户对其感兴趣,因此Top-N推荐显然更符合实际的应用需求。但遗憾的是,现在的研究工作较少关注这一方面。18 面向推荐系统的评论分析与研究第三章基于评论主题分析的评分预测第三章基于评论主题分析的评分预测本章介绍了一种基于词向量的方法挖掘用户评论信息,并结合协同过滤的方法设计新的推荐算法,来改善评分预测的效果。实验结果表明该算法较大程度上提高了评分预测精度。3.1引言推荐系统是根据用户的历史行为和兴趣特点,为用户推荐其感兴趣的信息或商品。传统的推荐算法包括基于内容的推荐和协同过滤。基于内容的推荐算法过于依赖用户和物品的描述性的特征,无法利用用户的反馈信息。基于协同过滤的算法,如[36]User-Based、Item-based、SlopeOne,由于简单有效在互联网公司中得到广泛应用。但是协同过滤算法仅以用户的历史行为为依据推测用户对物品的喜好,没有深层次挖掘用户或者物品的特征,例如,两个用户均对一家餐馆打出5分满分,但是评价角度可能不同,一个人认为菜肴美味,另一个觉得服务周到。近年来,Web2.0得到飞速发展,其关键特征之一就是用户主导生成内容。评论信息是重要的用户生成内容之一,一些电商网站,如淘宝、大众点评、Yelp等,拥有数千万用户对大量商品或者餐馆作出的评论。这些评论是用户对商品各个角度的评价,是用户对物品评分的详细解释。而传统的推荐算法往往忽略这一重要资源。近几[37-40]年,情感分析和意见挖掘领域已经有大量的工作成功从评论中挖掘出有效信息。对评论的角度(如服务、口味、环境等)和情感(正面、负面、中立等)的挖掘对推[41]荐系统领域有重大的利用价值。Ganu等人利用人工标注评论的主题和情感,然后[42]训练SVM模型,将评论的角度和情感进行分类,最后将正面评价,负面评价进行[43]综合作出评分预测。Qu等人提出意见袋(bag-of-opinions)的概念,用来表示评价词根,修饰词和否定词。利用意见袋和评分训练线性模型进行评分预测。这些算法都是根据用户对物品的评论预测用户对物品的评分,但并不能直接用于推荐系统。[44]McAuley等人提出利用HFT(HiddenFactorsasTopics)将评分和评论信息结合,[45]构建特征矩阵,利用SVD来作推荐,但无法同时考虑评论信息中的用户角度和物[46][47]品角度。Zhang等人利用LDA(LatentDirichletallocation)算法对评论进行主题分析生成主题词表,利用主题词表将用户评论表示成特征向量,然后利用机器学习算法19 第三章基于评论主题分析的评分预测面向推荐系统的评论分析研究建模进行评分预测。但是评论属于非结构化文本,具有异构、海量、实时等特点,处理难度较大,Zhang等人的工作主要缺陷是主题词表产生了大量无关词,影响了推荐效果。本文在上述基于评论分析的研究工作基础之上,提出基于词向量方法挖掘评论信息,设计基于评论分析的推荐算法,然后结合传统推荐算法改善推荐系统的性能。在大众点评数据集进行实验验证,结果表明本文提出的算法有效地提高了推荐系统的评分预测性能。表3.1基于LDA的主题分布主题1主题2主题3主题4主题5主题6好好好菜服务员好味道味道味道味道好不错甜不错小不错菜环境蛋糕好吃面好店店不错饭不错鱼团菜小小汤辣差味道奶茶大店好吃态度感觉面包牛肉好吃香东西朋友好吃鱼鸡虾钱价格茶锅大大少小家店肉肉小地方店火锅家汤大大巧克力肉饭鸡味道口味咖啡套餐辣小慢贵大牛价格嫩老板东西冰酱粥酸生意服务员感觉新鲜馄饨锅质量餐厅奶羊肉感觉油客人楼口味汤东西感觉环境老板香感觉牛肉甜量家3.2基于评论的推荐算法3.2.1相关定义用户评论数据中包含m个用户组成的用户集合Uu,,u和n个物品组成1m的物品集合Ii,,i。用户-物品评分数据集可以用mn阶矩阵R表示,Rui1n表示用户u对物品i的评分。Cui表示用户u对物品i的评论。Cu表示用户u所有的评20 面向推荐系统的评论分析与研究第三章基于评论主题分析的评分预测论集合,Ci表示用户对物品i所有的评论集合,X表示集合X中元素的个数。u表示用户u的对所有物品的评分的平均分。3.2.2评论主题分析本节使用不同方法进行用户评论分析,生成主题词表。根据评论是否涉及各个主题将评论表示成一组K维向量(K是主题个数),分析结果将在3.3节中被用于推荐系统。3.2.2.1基于LDA的评论分析1Zhang等人提出利用LDA算法挖掘评论主题,大众点评数据集经LDA算法生成的主题分布如表3.1所示,主题词按在该主题下的概率由大到小排列。实验主题数设置为6,每个主题的主题词个数设置为20。从主题词表可以看出,通过LDA算法挖掘出的主题大致将评论分为以下6个主题,依次为:甜品,饮料;肉类,火锅;面类小吃;鲜嫩菜类;服务评价;环境评价。同时可以看到在各主题下出现了大量无关的词和重复词,这势必会影响评分预测的效果。3.2.2.2基于人工标注的评论分析由于基于LDA的评分分析存在大量的与相应主题无关的词和重复词,因此本节考虑利用人工标注的方法生成主题词表。考虑到评论中主要用形容词表达情感,本文提取评论中的所有形容词,按词频由高到低排序,然后对出现次数高于20次的形容词标注主题和情感。主题数设定为6,分别为食物,服务,价格,环境,酒水,路程。由于各个主题的主题词数目不同,其中食物出现113个主题词,服务出现114个出题词,价格出现24个主题词,环境出现123个主题词,酒水的主题词只有13个,路程出现21个主题词。表2显示每类前20个主题词,其中正面情感标注为1,负面情感标注为-1。1数据表述请看节2.3.221 第三章基于评论主题分析的评分预测面向推荐系统的评论分析研究从表3.2可以看出,人工标注的主题词表比LDA生成的主题词表可靠得多,但人工标注费时费力。表3.2人工标注主题分布食物服务价格环境酒水路程好吃:1慢:-1贵:-1干净:1香醇:1远:-1香:1开心:1实惠:1整洁:1柔和:1近:1新鲜:1周到:1便宜:1旺:1浓烈:1不远:1嫩:1主动:1划算:1安静:1不浓郁:-1不方便:-1鲜:1亲切:1不贵:1卫生:1畅快:1便利:1脆:1贴心:1不便宜:-1漂亮:1醇香:1好找:1饱:1客气:1不高:1温馨:1浓郁:1偏僻:-1干净:1郁闷:-1低:1优雅:1轻柔:1隐蔽:-1酥:1不容易合算:1深刻醇和:1显眼:1不好吃:-1耐心:1实在:1脏:-1不醇厚:-1难找:-1浓郁:1勤快:1最低:1宽敞:1酣畅:1醒目:1鲜美:1不高兴:-1公道:1好看:1清醇:1便捷:1精致:1用心:1不划算:-1舒适:1清洌:1遥远:-1地道:1礼貌:1离谱:-1惬意:1偏远:-1难吃:-1不耐烦:-1不菲:-1嘈杂:-1隐秘:-1肥:-1仔细:1厚道:1拥挤:-1不醒目:-1爽口:1愉快:1不厚道:-1旧:-1就近:1糊:-1齐全:1不合理:-1乱:-1好走:1清爽:1热心:1昂贵:-1暖:1畅通:1怪:-1不开心:-1不贵:1清新:1荒僻:-13.2.2.3基于词向量的评论分析为了解决人工标注的不足,本节提出基于词向量的主题分析方法挖掘评论中用户的喜好和意见,该方法既克服了LDA算法的局限性和不可靠性,又避免了大量的人工标注工作。词向量(WordEmbedding)是用来将语言中的词进行数学化,表示成一组[48]向量的一种方式。word2vec是Mikolov等人提出的将词表征为实数值向量的高效工具,其输入是大量文本语料库,输出是词的向量表示。得到的词向量可以被用于很多自然语言处理任务和机器学习任务,如词性标注、句法分析,命名实体识别等。我们可以利用词向量表示来寻找词的相近词集合。基于词向量的这个特性自动寻找某主题下的主题词,具体步骤如下:21、利用word2vec工具将所有评论数据中的词表示为词向量;2https://code.google.com/p/word2vec/22 面向推荐系统的评论分析与研究第三章基于评论主题分析的评分预测2、依据cosine相似度,寻找主题以及该主题下2个有代表性的词的前20个相近词作为六个主题的主题词,那么每个主题会有60个主题词。本文中主题数设定为6,分别为食物,服务,价格,环境,酒水,路程。3、过滤无关词,然后将剩余词按相似度排序,取前20个词。以此得到的主题词表如表3.3所示,主题词按相似度由大到小排列。表3.3基于词向量的主题分布食物服务价格环境酒水路程各主题菜色服务人员菜价氛围啤酒步行代表词菜肴服务质量价位装修畅饮距离肉类服务水平贵格调酒类公里用餐有求必应经济安静白酒车程饭菜随叫随到划算布局饮料地铁站材料态度价格便宜舒适碳酸路途自助餐素质便宜敞亮茶水远追求无微不至价格高宽敞听装打车西餐礼貌物美价廉环境气氛百威公交车良好面带微笑档次情调雪碧起步重要热情平民化光线洋酒地铁品质积极平价感觉软饮料点距离出品客客气气老百姓气氛可乐开车卫生到位离谱服务环境汽水遥远细节热情市场价雅致橙汁公交讲究细心平民幽雅芬达轨道交通就餐贴心工薪大气酸梅汤近新鲜度体贴原价清静热饮骑车条件礼貌中档优雅柠檬茶堵车挑剔有求必应价格低明亮果珍路况3.2.3基于评论主题的评分预测基于评论分析结果,本章使用线性回归模型构建评分预测系统。3.2.3.1模型参数训练根据评论分析结果,对评论进行特征表示。评论Cui的特征表示为:uiui1,ui2,,uik23 第三章基于评论主题分析的评分预测面向推荐系统的评论分析研究其中K是实验设置的主题的个数。表示用户u对物品i的评论第k个特征值。特uik征值的计算方式如下:nuikuikt(3-1)t1其中n是各个主题下主题词的个数,若评论中包含该主题词t,则是各个主题词uikt对应的值,反之,为0。根据不同的主题分析方法,的值略有不同,具体计uiktuikt算方法如表3.4所示:表3.4计算方式uikt主题分析方法uiktLDA主题词在某主题下的概率人工标注主题词的情感(+1或-1)词向量主题词与主题的cosine相似度在得到每条评论的特征表示之后,利用线性回归模型训练特征权重,公式如下:TrW(3-2)uiui其中W是各个主题的权重,是误差偏置,r是该条评论中用户u对物品i的评分。ui3.2.3.2评分预测由于在评分预测阶段,系统无法预知用户的评论,因此本文模拟用户u对物品i的评论的特征表示用于评分预测。首先,生成用户和物品的特征表示。用户u第k维特征用p表示:ukiuikp(3-3)ukCupuk(3-4)pukpukj其中公式(3-4)是对相应的特征进行归一化。同样,定义物品i第k维特征:24 面向推荐系统的评论分析与研究第三章基于评论主题分析的评分预测uuikq(3-5)ikCiqikq(3-6)ikjqik由公式(3-4)产生的用户特征和公式(3-6)产生的物品特征计算出评论的特征表示:pq(3-7)uikukikˆuik(3-8)uikjuik然后,对于给定的目标用户u和目标物品i,根据线性回归得到的权重W和误差偏置,以及模拟的评论特征表示,使用如下公式计算目标用户u对物品i的评分:TrWˆˆ(3-9)uiui3.2.4组合推荐算法在上述基于评论主题的推荐算法的基础上,本文提出结合协同过滤算法的组合算法。协同过滤算法由于简单高效而得到广泛应用。BiasFromMean是协同过滤算法中[33]的一种,由Herlocker等人在1999年提出,它的优势就是计算代价低,可解释性较[3]强。计算公式如下:1uiru()rjirj(3-10)njZi其中Z表示购买过物品i的用户中除u以外的其他所有用户,r表示用户j对所有物ij品的评分的平均分,r表示用户j对物品i的评分。ji将BiasFromMean的预测结果作为线性回归模型的特征之一,新的计算公式ui如下:TrWW(3-11)uiuiui其中W是各个主题的权重,是用户u对物品i的评论的特征表示,是误差偏置,ui是BiasFromMean算法的计算结果,W是的权重,r是该条评论中用户u对uiuiui物品i的评分。得到各个特征的权重,利用模拟出的评论的特征表示和BiasFromMean算法的计算结果即可进行评分预测。25 第三章基于评论主题分析的评分预测面向推荐系统的评论分析研究3.3实验结果与分析3.3.1实验设置本章实验采用了大众点评网的评论数据集,并将数据集按4:1分别训练集和测试集。本章采用MAE(平均绝对误差)作为实验的评价标准,MAE的值越低,算法的预测精度越高。3.3.2实验结果分析表3.5实验结果实验序号预测方法MAE1BIASFROMMEAN0.61862SlopeOne0.68793item-basedCF0.64324LDA0.67475LDA+BIASFROMMEAN0.60136Manual0.66287Manual+BIASFROMMEAN0.59028word2vec0.62659word2vec+BIASFROMMEAN0.5817所有实验结果如表3.5所示。实验1,2,3均是基于协同过滤的推荐算法,它们的优势在于简单有效,三种方法中BIASFROMMEAN的效果最好。实验4~9均是通过分析评论来预测评分,其中实验4,5利用LDA算法分析评论。在进行LDA实验时,主题数设置为6,每个主题的主题词个数设置为20,超参数α设置为0.2,β设置为0.1,迭代次数为1000,保存步长为100。本文使用的LDA工3具是GibbsLDA++。为了得到最佳效果,本文考虑将评论作预处理,只取评论中的形容词和名词。实验4以LDA算法进行评论主题分析,实验结果MAE为0.6747。实验5在此基础上构建组合推荐系统,其实验结果MAE为0.6013。实验6,7通过人工标注评论中的主题和情感来分析评论,实验6的结果MAE为0.6628,实验7在此基础之上构建组合推荐系统,其实验结果MAE为0.5902。为了避免大量的人工标注工作,同时提高评论主题分析的准确性,实验8,9利用基于词向量的方法分析评论预测评分,实验8的实验结果MAE为0.6265,实验9在此基3http://gibbslda.sourceforge.net/26 面向推荐系统的评论分析与研究第三章基于评论主题分析的评分预测础之上构建组合推荐系统,其实验结果MAE为0.5817。表3.6Gigaword语料基于词向量的主题分布食物服务价格环境酒水路程高脂售后销价生态白酒行程食用服务网上涨幽美果酱骑行营养咨询物价噪声茅台酒车程中热量售前趋涨大气汽水步行膳食便民利民糖价保护果酒航程低脂中介性铝价示范圈酸奶距家营养素导医粮价检测场茶水公里富含服务性涨幅气候巧克力绕行流质贸易油价污染冷饮跋涉糖分限时价位公益林酿造崎岖山路饮用水经理骤跌监测所啤酒日行豆奶承诺监审鸟害果汁通行量叶酸反馈卡定价排放源纯生险道畜类代购代销环比敏感区冰淇淋单程植物修配进价保护带饮品湖岸线讲究公平交易植被汾酒轨道交通辅食专业期货防护林矿泉水坐车酱油节奖超罚飞涨自然金六福慢跑补品员工零售沼泽化奶茶驱车瓶装业务供应量风沙区朗姆骑最近研究工作表明,在训练词向量时不同来源的语料对结果有很大影响。本文使4用中文Gigaword语料来获取词向量,进行对比实验。实验结果如表3.7所示。结果显示,使用餐饮领域(dianping.com)的评论语料的系统可以更准确预测结果。经过进一步分析,我们发现由于Gigaword主要是新闻语料,生成的主题词如表3.6所示,分布中产生大量新闻中常见的专业性词语,而这些词语在评论文本中很少见,这对评分预测的准确性产生影响。表3.7对比实验结果实验序号预测方法dianpingGigaword1word2vec0.62650.64322word2vec+BIASFROMMEAN0.58170.61794https://catalog.ldc.upenn.edu/LDC2003T0927 第三章基于评论主题分析的评分预测面向推荐系统的评论分析研究综上所述,各个方法在加入BIASFROMMEAN的结果作为线性回归模型的特征之一构建组合算法,实验性能都能得到一定提高。本文提出的基于词向量的方法,采用word2vec工具挖掘评论中的主题和情感,在此基础上构建的组合推荐系统的实验结果是众方法中最佳的。另外,针对用户打分和评论内容存在矛盾这一现象,例如淘宝用户因怕商家骚扰而给商品好评,但在评论文本中写出真实感受,本文选出一些案例进行实验分析,实验结果如表3.8所示,实验证明利用本文提出的基于词向量的评分预测模型得出的评分可以在一定程度上更贴近用户的真实评分。表3.8评论内容与打分矛盾案例分析评论内容用户打分系统预测评分感觉他们家菜的口味比以前差了,量也少了,价格却比以前高了。。。避风塘炒蟹128一列,没几块,也不肥(季节原因吧);53.7几个点心还算正常水平,总算没有太失望。带了个日本朋友去吃饭,6点半到的,等了50分钟。。无语了。。。。位置布局有点局促,感觉不是很宽敞。觉得粉肠不太好吃,糯米42.8感太强了,也厚,蒸排骨还行。本来想找个地方喝喝下午茶的,不知不觉逛到这里,看着外面装53.8修挺有格调的很喜欢,就是服务员脾气不太好,要张纸巾都不给。环境太吵,东西量好少,一份椒盐富贵虾只有6个,太夸张了很lg两人吃了一百多,竟然没吃饱,又去了附近的徐记吃的生煎哎,32.4下次不会去这家了3.4本章小结本章针对基于协同过滤和基于评论分析的推荐算法的局限性和不稳定性,提出了采用基于词向量的方法挖掘评论中的评论主题和情感,并结合协同过滤方法,从而形成一种组合推荐模型,起到两者互补的作用。大规模评分预测实验结果表明组合推荐模型能有效提高预测性能。28 面向推荐系统的评论分析与研究第四章基于挖掘评论个性化特征的评分预测第四章基于挖掘评论个性化特征的评分预测针对现有基于评论分析的推荐算法没有充分考虑个性化的问题,本章通过对评论进行主题分析,挖掘用户的喜好,分别建立基于用户和物品的个性化评分预测模型。在大众点评数据集上进行验证,结果表明该模型有效地提高了评分预测准确度。4.1引言推荐系统20多年的发展历程中,与个性化密不可分。在信息大爆炸的今天,个性化推荐是信息超载问题的解决方法之一。理想的推荐系统能准确了解用户的喜好,为用户推荐其所需要的商品。传统的推荐算法,如协同过滤,一般通过评分来分析用户之间或者物品之间的相似度,从而预测用户对物品的评分,将评分较高的物品推荐给用户。协同过滤一般分为基于用户的协同过滤和基于物品的系统过滤,分别是针对用户和物品的个性化推荐过程。基于内容的推荐算法首先建立物品的特征库,然后根据用户的历史行为,挖掘其个性化特征,与产品特征进行相似度匹配进行推荐。随着互联网的普及和电子商务的发展,与用户的交互越来越得到重视,用户不再是被动的网页浏览者,而是主动的参与者,于是产生了大量的用户个性化内容,这些内容包括用户评论,地理位置,好友关系等。相对评分,评论更加具体,丰富,准确地表达了用户对物品的喜好。如果能从评论中准确地分析出用户的喜好和物品的特征必能很大程度上提高推荐精度。从个性化的角度来看,用户发表的评论可以帮助分析用户的个性化特征,物品获得的评论可以帮助分析物品的个性化特征。以评论“这家店虽然环境一般,但味道正宗,老板人也很好。”为例,该用户给该饭店打了5分满分。从用户分析的角度可以分析出,该用户比较注重服务和口味,对环境要求较低;而从商户的角度可以分析出该商户的口味、服务一流,但环境欠佳。可见评论的信息量远远大于评分,如果能从评论中精确地分析出用户的喜好和物品的特征必能很大程度上提高推荐精度。然而,评论属于非结构化文本,由网络用户自由表达,极具个性化特征,不具有语法严谨、表达明确、逻辑清楚等特点,处理起来难度较大。近年来,情感分析和意[37-39]见挖掘领域的研究者已经作出大量工作,成功地从评论中挖掘出评论的情感和角度。推荐系统领域的研究者通过将机器学习算法,统计算法等成功应用到评论研究工29 第四章基于挖掘评论个性化特征的评分预测面向推荐系统的评论分析研究[49,50-53]作中,有效地从评论中挖掘出评论的情感和潜在主题。如何充分利用评论分析[4-8]得到的评论情感和主题来改进推荐系统成为一个重要的研究课题。本文首先对评论进行主题分析,构建用户和物品的画像。在此基础上,提出一种新的个性化评分预测模型。该模型针对各个用户和物品进行建模,较大程度进行个性化处理。在大众点评数据集上进行实验验证,结果表明本文提出的模型可以有效地提高推荐系统的评分预测性能。表4.1基于LDA的主题分布(大众点评网数据)Topic1Topic2Topic3Topic4Topic5Topic6好好好菜服务员好味道味道味道味道好不错甜不错小不错菜环境蛋糕好吃面好店店不错饭不错鱼团菜小小汤辣差味道奶茶大店好吃态度感觉面包牛肉好吃香东西朋友好吃鱼鸡虾钱价格茶锅大大少小家店肉肉小地方店火锅家汤大大巧克力肉饭鸡味道口味咖啡套餐辣小慢贵大牛价格嫩老板东西冰酱粥酸生意服务员感觉新鲜馄饨锅质量餐厅奶羊肉感觉油客人楼口味汤东西感觉环境老板香感觉牛肉甜量家4.2基于评论主题的个性化模型4.2.1相关定义用户评论数据中包含m个用户组成的用户集合Uu,,u和n个物品组成1m的物品集合Ii,,i。用户-物品评分数据集可以用mn阶矩阵R表示,Rui1n表示用户u对物品i的评分。Cui表示用户u对物品i的评论。Cu表示用户u所有的评论集合,Ci表示用户对物品i所有的评论集合,X表示集合X中元素的个数。u表30 面向推荐系统的评论分析与研究第四章基于挖掘评论个性化特征的评分预测示用户u的对所有物品的评分的平均分。4.2.2评论主题分析为了分析用户评论所表达的潜在主题,本文使用LDA算法对用户评论进行主题分析。LDA是一种主题模型,属于无监督学习算法,它可以将文档集中每篇文档的主题按照概率分布的形式给出,并且对于每一个主题均可以找出一些词语来描述。大众点评数据集在LDA实验结果中的主题分布如表4.1所示,主题词按在该主题下的概率由大到小排列。实验主题数设置为6,每个主题的主题词个数设置为20,超参数设置为0.2,设置为0.1,迭代次数为1000。根据评论是否涉及各个主题将评论表示成一组K维向量(K是主题个数),分析结果将在4.3.3节中被用于推荐系统。4.2.3用户和物品的特征表示根据评论分析结果,对评论进行特征表示。评论Cui的特征表示为:ui,,,kK1,(4-1)uiui1uik其中K是实验设置的主题的个数。表示用户u对物品i的评论第k个特征值。特uik征值的计算方式如下:nuikuikt(4-2)t1其中n是各个主题下主题词的个数,若评论中包含该主题词t,则是主题词在kuikt主题下的概率,反之,为0。uikt然后生成用户的特征表示p和物品的特征表示q。用户u第k维特征用p表示:uiukiuikp(4-3)ukCupukpK,k1,(4-4)ukkpuk其中公式(4-4)是对相应的特征进行归一化。同样,定义物品i第k维特征q:ik31 第四章基于挖掘评论个性化特征的评分预测面向推荐系统的评论分析研究uuikq(4-5)ikCiqikqK,k1,(4-6)ikkqik4.2.4基准模型[46]本文以Zhang等人提出的模型为基准模型。Zhang等人通过对评论进行主题分析生成主题词表。根据评论中是否含有主题词将每条评论表示成一组向量,然后生成用户和物品的特征向量表示。利用向量和对应的评分,通过机器学习模型训练得到用户对物品不同的主题的权重。经过上述工作得到的权重可以理解为大多数用户对饭店不同角度的偏好,比如大多数用户对饭店菜品的口味要求比较高,那么所得口味主题的权重会比较大。但这种分析没有充分考虑到不同用户的个性化需求,比如用户A为高收入者,对环境要求比较高;用户B为低收入者,对价格比较敏感。如果对用户A和B用同样的主题权重去预测评分,给出推荐,必然影响推荐的精准度。4.2.5个性化模型针对基准模型的不足,本文提出个性化评分预测模型。个性化评分预测模型可以分为用户个性化(User-based)和物品个性化(Item-based)。其中用户个性化可以解释为向用户推荐其喜欢的物品,而物品个性化可以解释为为物品寻找对其感兴趣的用户。在评分预测阶段,利用用户u对物品i的评分以及用户u对物品i的评论的特征表示,可以通过线性回归模型训练特征权重,公式如下:TUser-based:rW(4-7)uiuuiuTItem-based:rW(4-8)uiiuii其中r是用户u对物品i的评分,W和是基于用户的个性化模型训练后所得各特uiuu征权重和误差偏置,W和是基于物品的个性化模型训练后所得各特征权重和误差偏ii置。然后,对于给定的目标用户u和目标物品i,由公式(4-4)产生的用户特征和公式(4-6)产生的物品特征模拟目标用户u对目标物品i的评论特征表示:32 面向推荐系统的评论分析与研究第四章基于挖掘评论个性化特征的评分预测pq(4-9)uikukikˆuik,k1,K(4-10)uikkuik根据线性回归得到的权重和误差偏置,以及模拟的评论特征表示,使用如下公式计算目标用户u对物品i的评分:TUser-based:rWˆˆ(4-11)uiuuiuTItem-based:rWˆˆ(4-12)uiiuii4.3实验结果与分析4.3.1实验设置本章实验数据依然采用大众点评网的评论数据。由于本文的目标是建立针对用户或者物品的个性化模型,考虑到不同用户或者不同商户的评论数量的差异对实验的影响,需要对实验数据设置过滤值,例如,进行用户个性化实验时,设置过滤值为10则表示只取数据集中评论商户数超过10的用户的评论;进行物品个性化实验时,设置过滤值为10则表示只取数据集中拥有10条以上用户评论的商户的评论。本试验在进行基于个性化的实验以确定最佳过滤值时,按7:1:2的比例随机将数据分为训练集,开发集和测试集。对数据根据过滤值过滤时只对训练集进行过滤,保持开发集和测试集不变。本章依然使用MAE(平均绝对偏差)为评价标准,MAE的值越低,算法的预测精度越高。4.3.2参数选定基于用户个性化的开发集实验结果如表4.2所示,第一列为过滤值,第二列为过滤后的开发集数据的实验结果,为了与基准模型作比较,第三列为开发集总的数据集的实验结果。总的数据集的实验结果生成方式为:针对目标用户u,如果用户u在过滤后的数据集中则使用个性化预测结果,反之则使用非个性化结果(基准模型的结果)。如图所示,随着过滤值的增大,过滤后的数据实验结果降低,因为用户的评论数增长有利于训练用户的特征权重。但是过滤值的增大也导致了数据集中未建模的用33 第四章基于挖掘评论个性化特征的评分预测面向推荐系统的评论分析研究户数增大,因此在总的数据集上实验效果呈现先降低后升高的趋势,而且升高的趋势越来越大。基于物品个性化的开发集实验结果如表4.3所示,实验结果变化趋势与表4.2相同。根据实验结果,两个模型都在过滤值为5的时候取得最小值,因此本文选定过滤值为5。表4.2基于用户个性化的开发集实验结果MAE用户数过滤后未过滤20.60910.639530.59440.639350.58500.6389100.56730.6392150.55560.6393200.55180.6396250.54860.6398300.54850.6396350.54890.6402表4.3基于物品个性化的开发集实验结果MAE物品数过滤后未过滤20.59860.638330.58970.638150.58020.6377100.56240.6380150.55110.6382200.54380.6388250.54250.6393300.54230.6397350.54240.64094.3.3实验结果分析根据上述在开发集的实验结果,本文将个性化模型的过滤值选定为5,在测试集上的实验结果如表4.4所示。其中实验1使用Zhang提出的非个性化方法,实验结果MAE为0.6747。实验2基于用户的个性化模型实验结果为0.6418,实验3基于物品的个性化模型实验结果为0.6359。本文主要讨论的两种基于个性化的模型,其异同点分析如下:基于物品个性化的实验结果与基于用户个性化实验结果趋势类似,随着过34 面向推荐系统的评论分析与研究第四章基于挖掘评论个性化特征的评分预测滤值的增大,过滤后的数据实验结果下降,总的数据集上实验效果呈现先降低后升高的趋势。由于数据集中商户的数量远少于用户的数量,平均每个商户拥有的评论数量远大于用户的平均评论数,更有利于训练特征权重,因此基于物品个性化的实验结果比基于用户个性化的实验结果更低。图4.1显示了在测试集上基于用户个性化和基于物品个性化实验的结果比较。在实际应用中,用户的增长远比物品的增长快得多,因此基于物品的个性化模型在解决扩展性和数据稀疏等问题上有一定的优势。表4.4主要实验结果实验序号系统MAE1Baseline0.67472User-basedPersonalizedModel0.64183Item-basedPersonalizedModel0.6359图4.1两种个性化方法实验的结果比较4.4本章小结因为现有的基于评论分析的推荐算法没有充分考虑个性化的问题,本文在对评论进行主题分析的基础上,针对用户和物品分别建立不同的个性化解决方案。经过大规模的数据实验,结果表明该方法显著地提高了评分预测的预测精度。通过比较,基于物品的个性化预测方法的效果更好,而且在解决扩展性和数据稀疏等问题上有一定的优势。35 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取针对现有的评论标签抽取展示个数有限,同类商品标签大量重复等问题,本章提出了基于实体知识库的方法进行评论标签的抽取,并按实体中的层次展示评论标签。用户可以根据层次评论标签来更好地选择商品。高效、准确、用户友好的评论标签展示不仅可以提高用户查阅用户评论的体验,也可以用于构建更细致的用户画像和物品特征,实现更精确的推荐系统。实验证明本文提出的方法在正确率和实用性上都有良好的表现。5.1引言随着互联网和电子商务的快速发展,传统企业的业务流程和消费者的行为模式都产生了巨大的变化。在线购物的体验不断改善使得在线购物越来越流行,并且几乎所有的电商都鼓励或者邀请消费者为他们所购买的商品或服务进行评价,越来越多的消费者也愿意在各个电商平台上分享自己的经验和智慧。因此,网络上产品的评论数飞快地增长,对于具体的商品,它的评论数有可能成千上万。以京东商城的iPhone5s手机为例,如图5.1所示,截止2016年4月10日,其用户评论数已接近7万多条。这些大量的评论一方面是大数据时代各个电商平台珍惜的资源,另一方面也给企业和消费者带来了诸多不便。第一,海量的评论造成消费者阅读困难,很少有消费者为了决定是否购买一个商品而浏览成千上万条评论,海量评论的价值无法体现;第二,海量的评论给企业自身追踪消费趋势、了解用户消费习惯带来了障碍。图5.1京东iPhone5s手机评论数36 面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取如何从海量的评论中挖掘出简短有效的描述,并让用户在最短的时间内了解商品的重要信息呢?最直观的方法就是将冗长的评论提炼成评论短语标签,然后进行语义去重,再按照一定顺序进行展示。国内部分电商企业已经采取了相应评论标签抽取的方法,并按累计数量进行排序。其中代表性的有淘宝的“大家都写到”(如图5.2所示),大众点评的“大家认为”(如图5.3所示),京东商城的“买家印象”(如图5.4所示)。这些企业均采用了对某个商品的所有用户评论进行提炼,并对有限个数的评论标签进行平面展示的方法。这种方法存在如下缺陷:1.同类商品标签大量雷同;2.标签展示的数量只是在8到10个,无法满足用户的个性化需求。图5.2淘宝网评论标签展示图5.3大众点评网评论标签展示图5.4京东商城评论标签展示为解决上述问题,本文提出了基于实体知识库的评论短语抽取方法,该方法分为两个子任务,一是识别评论标签短语所涉及的商品属性,对于不同领域来说,消费者在进行评价时总是以产品的各个属性为出发点,以手机为例,用户不外乎从手机的外观、续航、处理器、系统、价格等方面进行评价,这些属性的数目是有限的;二是识别评论的情感(正面、负面或者中立),有强烈情感的评论一般是用户较希望看到的,有利于作为参考帮助用户作出决策。对于第一个子任务——识别评论属性,常见的做[54-56]法是利用条件随机场进行序列标注。该方法的缺陷是需要大量的人工标注语料,37 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究并只能对与语料相同领域中的商品进行属性识别。为了实现跨领域操作,本文采取构建实体知识库的方法,将各种商品的各个属性进行分类,层次化等操作构建一个多领域多层级的实体知识库。在评论中进行属性词匹配,将匹配到的属性词作为该评论的属性。对于第二个子任务——识别评论情感,本文采用常见的两种方法,基于SVM[57-60]的分类方法和基于情感词典的方法。本章旨在提出一个快速有效并易于实现的评论短语抽取方法以及实体分层展示方法,用大规模真实语料进行实验,并成功搭建一个演示系统。实验和系统演示结果均证明本文提出的基于实体知识库的评论短语抽取方法和评论标签分层展示方法在准确率和实用性方面都有较好的表现。5.2知识库构建5.2.1实体知识库构建现状分析随着计算机语义研究的不断深入,各个国家都致力于可用于自然语言处理的大规模语义词典或大规模知识库的建设。其中有代表性的有英语语义词典知识库5WordNet,许多国家都在筹划和建立与英文WordNet兼容的本国语言WordNet系统,包括欧洲的Eurowordnet,韩国的Koreanwordnet。中文代表性的知识库有中文信息结67构库——知网(Hownet),实体知识库自动构建系统——大词林(BigCilin)。[61]WordNet是一部在线词典数据库系统,采用了与传统词典不同的方式,即按照词义而不是词形来组织词汇信息。WordNet由普林斯顿大学认知科学实验室在1985年开始建立,随后的30多年内不断发展,并于2006发布了WordNet3.0版本。WordNet将英语的名词、动词、形容词、副词等组织为同义词集(Synsets),每一个Synset表示一个基本的词汇概念,并在这些概念之间建立了包括同义关系(synonymy)、反义关系(antonymy)、上下位关系(hypernymy&hyponymy)、部分-整体关系(meronymy)等多种语义关系。图5.5是WordNet-3.1版本中“computer”的检索结果。5http://wordnet.princeton.edu6http://www.keenage.com7http://www.bigcilin.com38 面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取图5.5WordNet-3.1“computer”的检索结果知网是由董振东教授于1988年提出,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网包含268种信息结构模式,附带一万多个实例,总字数达六万。知网是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。知网描述了上下位关系、同义关系、反义关系、对义关系、部件-整体关系、属性-宿主关系、材料-成品关系等。在知网中,每一个概念用一个记录来表示。以动词“打”为例,其概念描述如图5.6所示:图5.6概念“打”的描述其中NO.为概念编号,W_C,G_C,E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是英语的词语、词性和例子,DEF是知网对于该概念的定义,称之为一个语义表达式。[62]大词林由哈工大社会计算与信息检索研究中心于2014年发布,是在2005年《同义词词林(扩展版)》的基础上研发而成。大词林是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,借鉴《同义词词林(扩展版)》的顶层结构,并从Apriori关联项、后缀39 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。大词林目前具有百万实体规模,并具有不断自动扩展的功能,是时刻都在自我更新的中文词汇语义知识库。截止2015年11月,大词林包含167万实体词,15万个上位词,1911万多种实体上位关系,5万多种上位词层次之间关系。图5.7为大词林中搜索“芒果”后的结果示图,该图显示了“芒果”的所有不同层级的上位词,直至最顶层的上位词“物”。图5.7大词林应用举例5.2.2实体知识库构建方法由于评论语料的特殊性和领域相关性,知网、大词林等中文知识库并不适用于本章的评论属性识别任务。表5.1评论属性知识库的构建流程1爬取各大电商的产品评论,包括淘宝,京东,去哪儿,携程,大众点评等等。(本章仅以大众点评网为例)2对评论进行预处理,按标点“,”“。”?”“!”“„„”等符号为分隔符,将长评论分为评论短句。3对评论短句预处理,进行分词、词性标注等操作。4提取评论中的所有名词作为属性词候选词,过滤低频次和在极少商品评论中出现的词。5对一个特定领域属性类别是事先指定好的,以大众点评网为例,评论属性大类为食物、环境、价格、服务、酒水、路程。6除了属性类别事先指定以外,同义词集由候选词进行词聚类,或者查阅网络资源进行扩充。40 面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取本文在参照大词林构建方法和内容的基础上,针对任务需要,考虑到人力和时间等限制条件,将知识库构建任务进行简化:a.本章构建评论属性实体知识库只以各个领域的评论属性词为描述对象;b.本章构建评论属性实体知识库只描述同义关系和上下位关系。评论属性知识库构建步骤如表5.1所示。以大众点评的评论数据为例,不同的评论属性层次结构不同,有的评论属性层次较多,如食物的下位词有原料,菜肴等,原料的下位词有肉类,蔬菜等,肉类的下位词有家禽,家畜,野生等等;然而有的评论属性可能没有下位词,如价格,但评论中仍然会出现一些如价位,价码等同义词。本章构建的知识库总共包含4897个实体,分为食物、环境、价格、服务、酒水、路程6个属性大类,其中食物包含4250个实体,环境包含171个实体,服务包含107个实体,价格包含108个实体,酒水包含197个实体,路程包含64个实体。以食物大类为例,其属性层次结构如图5.8所示。图5.8食物大类的所有层次结构5.2.3基于实体知识库的属性识别属性识别任务就是要识别评论短句中的评价属性,即评论者对评价对象的哪个角度或方面做出评论。例如“这家店的装修古典”是从饭店的环境进行评价,“装修”这个词属于“环境”大类,本章属性识别的任务就是找出该评论的评价角度——“装修”。本章在进行属性识别时,为了提高覆盖率,分成两种情况考虑,一、是评论中存在实体知识库中的属性词,使用字符串匹配的方法即可识别评论属性;二、评论中不41 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究存在知识库中的属性词,原因是知识库的词不够丰富或者评论短句没有明显地表达评论属性,但评论短句又表达了一定的情感(正面情感或负面情感)具有一定分析价值,如“同学们一致觉得很划算”并没有明确表达评论属性,但是“划算”从语义理解上显然表达属性“价格”方面的正面情感,在这种情况下,本章使用语义相似度的方法进行评论属性分类。基于实体知识库的属性识别的步骤如下:1.将每一条完整评论按标点符号分隔后的评论短句进行分词,词性标注;2.利用word2vec工具生成评论语料中各个词对应的词向量;3.按序查找评论短句中的名词是否为知识库出现的词,若是则进行第4步,反之则进行第5步;4.将该评论短句的属性标注为匹配到的知识库中的属性词,一句评论短句可被标注多个属性词;5.利用5.3节的方法识别该评论短句的情感,若该短句情感中立则不予分析,若该短句表达了正面情感或者负面情感则进行第6步。6.分别将表5.2中的各个属性大类下的词队的词向量加和平均,使用加和平均后的向量代表带属性大类的向量,计算平均短句中各个词与属性大类的相似度,与属性大类相似度最大且满足本章设定的两个阈值则将该评论短句标注为该属性大类。表5.2各属性大类代表词食物环境服务价格酒水路程食物环境服务价格酒水路程包子灯光服务员性价比饮料线路牛肉布置前台消费奶茶路线土豆卫生老板餐费热茶地段西餐陈设经理客单葡萄酒步行由于语料丰富,覆盖率对实用性影响较小,本章主要的目标是提高准确率。上述步骤6中需要确定的阈值有两个,一是相似度阈值,二是评论短句中的词频阈值。相似度阈值指的是评论短句中各个词与各个属性向量计算相似度,计算出的最大的相似度必须大于该阈值,一般相似度阈值越大准确率越高。词频阈值是指各个词与各个属性向量计算相似度时,该词在语料中出现的次数必须大于词频阈值,一般词频越大准确率越高。本章从符合要求(不存在知识库中的属性词,但表达了正面或者负面的情感)的语料中随机取500句评论短句进行标注作为开发集,标注结果为每句评论短句42 面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取对应的属性大类。实验结果表5.3和表5.4所示,根据实验结果将相似度阈值设定为0.35;将词频阈值设定为80,词频阈值过大准确率提高有限,覆盖率下降明显。表5.3相似度阈值对准确率和覆盖率的影响相似度阈值00.10.20.250.30.350.4准确率0.46400.49140.56830.64120.65850.70790.6792覆盖率1.00.98710.80600.61630.46550.34480.1551F1值0.63390.65610.66670.62850.54540.46370.2526表5.4词频阈值对准确率和覆盖率的影响词频阈值010305080100100010000相似度阈值0.350.350.350.350.350.350.350.35准确率0.70790.73620.76240.78240.80110.80320.80530.8118覆盖率0.34480.31400.25200.21300.18980.17440.15010.0718F1值0.46370.43920.37870.33480.30690.31310.30750.1319为了验证基于实体知识库的属性识别的最终综合效果,本章从评论随机取500句评论短句进行属性大类标注。实验结果显示在属性大类的识别上综合准确率达到84.63%,覆盖率为40.76%。5.3评论情感分析人类的情感非常复杂,有喜、怒、哀、惧、爱、恶、欲等;而且每个情感还分不同的程度。要让计算机理解人类的情感非常困难,但随着近几年的情感分析逐渐成为研究热点,科学工作者在情感分析研究方面取得了长足的进步。由于任务需求,我们只把评论表达的情感分为正面,负面两种情感。一般将情感分析看做是一个分类问题,主要有基于规则和基于机器学习的方法。基于规则的方法主要依赖情感词典,情感词典中包含各个情感词以及他们的情感极性。感谢科研工作者的无私奉献,现在无论中文,英文均有不少质量很好的情感词典供相关学者学习研究。基于情感词典的方法的优点是高效迅速,缺点是分类效果欠佳,同一个情感词在不同语境下可能表达相反的情感,如“烂”这个词大多数情况下表达的是负面的情感,但与菜肴一起搭配时(如“牛肉炖得很烂”)可能是正面的情感。基于机器学习的方43 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究法可以对语料提取各种各样的特征,优点是在训练语料丰富质量较高的情况下分类准确率较高,缺点是需要大量标注语料。5.3.1基于机器学习的情感分析目前公认的情感分析比较系统的研究工作开始于基于监督学习方法对电影评论文本进行情感倾向性分类和基于无监督学习(unsupervisedlearning)对文本情感情感倾向性分类的研究。基于文本的N元语法(ngram)和词性(POS)等特征分别使用朴素贝叶斯(NaiveBayes),最大熵(MaximumEntropy)和支持向量机(SupportVectorMachine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划[64-66]分的做法也一直沿用至今。本章实现了常规的朴素贝叶斯算法和支持向量机算法,特征采用常用的词项(unigram)特征。实验所用数据为人工标注的2000条评论,其中评论情感为正面的1000条,评论情感为负面的1000条。每种情感各随机选80%作为训练集,其余20%作为测试集。实验结果朴素贝叶斯算法的准确率为72.37%,而使用支持向量机算法的实验结果准确率为76.48%。5.3.2基于规则的情感分析由于本章处理的语料最小单位是评论短句,经计算平均每个评论短句的词语数量为5.2,所以使用机器学习算法时特征空间非常稀疏,从而导致情感分类的准确率较低。因此本节考虑使用基于情感词典的方法。8本章采用的三个情感词典分别是台湾大学的中文情感极性词典,大连理工大学910的中文情感词汇本体库,以及知网的情感分析用词语集。基于情感词典的方法进行情感分析步骤如下:1.将三个情感词典中的情感词合并去重,如果遇到不同情感词典情感极性不同8http://www.datatang.com/data/443179http://www.datatang.com/data/4544810http://www.datatang.com/data/4324744 面向推荐系统的评论分析研究第五章基于实体知识库的评论短语抽取的词语,按“少数服从多数”原则处理;2.对于一句评论短语,按词语顺序查找是否存在情感词典中的情感词,如果找到情感词,则在情感词前后三个词语找否定词;3.在情感词前后找到否定词后,则将情感词的极性取反,如“这个菜不便宜”这句评论在“便宜”前找到否定词“不”则该情感词的极性取反变成负面情感;4.分别统计评论短语中的正面情感词和负面情感词的个数,如果正面情感词的个数多于负面情感词,则该评论短句的情感为正面;如果正面情感词的个数少于负面情感词,则该评论短句的情感为负面;如果正面情感词的个数和负面情感词个数相同,则该评论短句的情感为中立。经过实验,基于规则的情感分析准确率达85.15%。5.4综合实验结果与分析在实现评论属性识别和评论情感分析两个子任务之后,本节在评论语料中随机抽取500句评论短句,并标注评论短句的属性和情感作为测试集进行综合实验。综合实验是指对一条评论短句进行属性识别和情感分析,两个任务同时正确时才视为正确。实验结果综合准确率为75.35%,综合覆盖率为58.42%。因为暂时没有相似的工作可以做对比实验,但通过系统的实际应用发现此方法的综合准确率和覆盖率可满足日常应用需求。5.5评论标签分层展示方法简介传统的评论标签方法如图5.2、图5.3和图5.4所示,如上文所述此类评论标签展示方法存在同类商品标签大量雷同、无法满足用户的个性化需求等缺陷。本章提出采用实体分层展示方法操作流程如图5.9所示(以大众点评数据为例),在页面左侧会显示实体属性大类,如食物、环境、酒水、服务、价格、路程。各个属性标签的右侧括号中的数字分别代表该属性的正面评价和负面评价。点击属性大类后会相应的显示该属性的下一层分类,如点击“食物”后,相应显示食物的下一层属性,包括蔬菜,肉类等等,点击其中的“肉类”属性则继续显示肉类的下一层实体属性,包括家禽,水产等等直至最后一层属性。页面的右侧显示与点击属性有关的评价,其中正面的评45 第五章基于实体知识库的评论短语抽取面向推荐系统的评论分析研究价短句由红色字体标出,负面的评价短句由蓝色字体标出。用户根据这种评论标签展示方式,既可以详尽地了解商品的总体属性评价,又可以根据自己的兴趣偏好详细了解某一属性的好坏。图5.9基于实体知识库的评论短语抽取标签的分层展示方法5.6本章小结为了解决现有评论标签展示存在的同类商品标签大量雷同和标签有限、无法满足用户个性化等缺陷,本章提出一个快速有效且易于实现的评论短语抽取方法以及实体分层展示方法,实验和系统演示结果均证明本文提出的基于实体知识库的评论短语抽取方法和评论标签分层展示方法在准确率和实用性方面都有较好的表现。评论标签分层表示可以更好的展示用户对物品不同角度的评价,有利于实现更精确的推荐系统。46 面向推荐系统的评论分析研究第六章总结与展望第六章总结与展望6.1研究工作总结随着互联网和计算机技术的不断进步,以及网络信息的不断增长,推荐系统会越来越受到用户的欢迎。基于评论分析的推荐系统是一个相对复杂的任务,与自然语言处理、情感分析、文本挖掘等领域的发展息息相关。本文对推荐系统的原理和常用算法进行了总结和分析。详细介绍了几种传统推荐算法以及它们各自的优点和缺点。本文从不同角度研究分析了用户评论,并提高推荐准确度,改善推荐质量。本文主要的研究工作总结归纳为以下几个方面:(1)针对基于协同过滤和基于评论分析的推荐算法的局限性和不稳定性,提出了采用基于词向量的方法挖掘评论中的评论主题和情感,并结合协同过滤方法,从而形成一种组合推荐模型,起到两者互补的作用。大规模评分预测实验结果表明组合推荐模型能有效提高预测性能。(2)因为现有的基于评论分析的推荐算法没有充分考虑个性化的问题,本文在对评论进行主题分析的基础上,针对用户和物品分别建立不同的个性化解决方案。经过大规模的数据实验,结果表明该方法显著地提高了评分预测的预测精度。通过比较,基于物品的个性化预测方法的效果更好,而且在解决扩展性和数据稀疏等问题上有一定的优势。(3)为了解决现有评论标签展示存在的同类商品标签大量雷同和标签有限、无法满足用户个性化等缺陷,本章提出一个快速有效且易于实现的评论短语抽取方法以及实体分层展示方法,实验和系统演示结果均证明本文提出的基于实体知识库的评论短语抽取方法和评论标签分层展示方法在准确率和实用性方面都有较好的表现。6.2下一步工作展望本文从真实评论数据出发,在推荐系统相关研究工作的基础上,提出了自己的改进方案和思想,并一定程度上提高了推荐系统的性能。但不可否认的是目前本文提出的推荐算法对评论分析还无法非常准确地刻画用户画像和物品特征,一定程度上导致推荐系统的预测准确性仍然较低,今后需要做进一步的研究分析,主要体现在以下几47 第六章总结与展望面向推荐系统的评论分析研究个方面:1.本文针对基于协同过滤和基于评论分析的推荐算法的局限性和不稳定性,提出了采用基于词向量的方法挖掘评论中的评论主题和情感,并结合协同过滤方法,从而形成一种组合推荐模型。但是该算法仍然使用较多的人工干预生成用户评论的主题分布。下一步的工作在评论分析时考虑用户打分和内容生成得分之间的矛盾,并尽量减少人工干预,提高评论情感,主题挖掘的准确性和有效性。2.本文提出的基于评论主题的个性化分析预测模型对用户评论数设置了阈值也给系统带来了冷启动问题,即评论数少的用户无法进行个性化评分预测。下一步的工作可以利用用户的其它信息辅助个性化模型进行评分预测,避免用户或者项目冷启动问题的制约。3.本文提出的基于实体知识库的评论短语抽取方法以及实体分层展示方法,在一定程度上追求了简单易用的特征。无论是在评论角度的识别和情感分析方面都有很大的改进空间。并在本文是在餐饮领域的评论数据上生成了实体知识库,下一步的工作可以收集更多的评论数据,做跨领域的知识库,并且在生成知识库的方法上要尽量减少人工干预。另外下一步考虑利用基于实体知识库抽取的标签生成用户画像和物品特征,并应用到推荐系统中。48 面向推荐系统的评论分析与研究参考文献参考文献[1]项亮.推荐系统实践[M].北京:人民邮电出版社,2012.6:6-7.[2]Miningusergeneratedcontent[M].CRCPress,2014:3-17.[3]MooneyRJ,RoyL.Content-basedbookrecommendingusinglearningfortextcate-gorization[C].ACMConferenceonDigitalLibraries,2000:195-204.[4]ZhouJ,LuoT.TowardsanIntroductiontoCollaborativeFiltering[C].InternationalConferenceonComputationalScienceandEngineering,2009:576-581.[5]SiL,JinR.Unifiedfilteringbycombiningcollaborativefilteringandcontent-basedfilteringviamixturemodelandexponentialmodel[C].ProceedingsofthethirteenthACMinternationalconferenceonInformationandknowledgemanagement,2004:156-157.[6]JannachD,ZankerM,FelfernigA,etal.Recommendersystems:anintroduction[M].CambridgeUniversityPress,2010:124-142.[7]MaloneTW,GrantKR,TurbakFA.Theinformationlens:anintelligentsystemforinformationsharinginorganizations[J].AcmSigchiBulletin,1986,17(4):1-8.[8]JoachimsT,FreitagD,MitchellT.Webwatcher:Atourguidefortheworldwideweb[C].Proceedingsofthe5thInternationalJointConferenceonArtificialIntelli-gence,1997:770-777.[9]ArmstrongR,FreitagD,JoachimsT,etal.Webwatcher:Alearningapprenticefortheworldwideweb[C].AAAISpringsymposiumonInformationgatheringfromHetero-geneous,distributedenvironments,1995:6-12.[10]GoldbergD.Usingcollaborativefilteringtoweaveaninformationtapestry[C].Com-municationsoftheAcm,1992:61-70.[11]ResnickP,IacovouN,SuchakM,etal.GroupLens:anopenarchitectureforcollabora-tivefilteringofnetnews[C].Proceedingsofthe1994ACMconferenceonComputersupportedcooperativework,1994:175--186.[12]KonstanJA,MillerBN,MaltzD,etal.GroupLens:applyingcollaborativefilteringtoUsenetnews[J].CommunicationsoftheAcm,1997,40(3):77-87.49 参考文献面向推荐系统的评论分析研究[13]DavidsonJ,LiebaldB,LiuJ,etal.TheYouTubevideorecommendationsystem[C].ACMConferenceonRecommenderSystems,Recsys2010,2010:293-296.[14]BalabanovicM,ShohamY.Fab:content-based,collaborativerecommendation[J].CommunicationsoftheAcm,1997,40(3):66-72.[15]ResnickP,VarianHR.Recommendersystems[J].CommunicationsoftheAcm,1997,40(3):56-58.[16]AdomaviciusG,TuzhilinA.TowardtheNextGenerationofRecommenderSystems:ASurveyoftheState-of-the-ArtandPossibleExtensions[J].IEEETransactionsonKnowledge&DataEngineering,2005,17(6):734-749.[17]SarwarB,KarypisG,KonstanJ,etal.Item-basedcollaborativefilteringrecommenda-tionalgorithms[C].Proceedingsofthe10thinternationalconferenceonWorldWideWeb,2001:285-295.[18]SchaferJB,KonstanJ,RiedlJ.Recommendersystemsine-commerce[C].Proceed-ingsofthe1stACMconferenceonElectroniccommerce,1999:158-166.[19]RicciF,RokachL,ShapiraB,etal.Recommendersystemshandbook[M].Springer,2011:75-76.[20]SaltonG,McgillMJ.Introductiontomoderninformationretrieval[J].McGraw-Hill,1986,41(4):305-306.[21]MontanerM,LópezB,RosaJLDL.ATaxonomyofRecommenderAgentsontheInternet[J].ArtificialIntelligenceReview,2003,19(4):285-330.[22]BasuC,HirshH,CohenW.RecommendationasClassification:UsingSocialandContent-BasedInformationinRecommendation[C].The15thNationalConferenceonArtificialIntelligence,1998:714-720.[23]ClaypoolM.CombiningContent-BasedandCollaborativeFiltersinanOnlineNews-paper[C].Proc.RecommenderSystemsWorkshopatACMSIGIR,1999:1-11.[24]PazzaniMJ.AFrameworkforCollaborative,Content-BasedandDemographicFilter-ing[J].ArtificialIntelligenceReview,1999,13(5-6):393-408.[25]许海玲,吴潇,李晓东,等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.[26]BurkeR.HybridRecommenderSystems:SurveyandExperiments[C].Interaction,50 面向推荐系统的评论分析与研究参考文献2002:331-370.[27]BillsusD,PazzaniMJ.UserModelingforAdaptiveNewsAccess[J].UserModelingandUser-AdaptedInteraction,2003,10(2):147-180.[28]TranT,CohenR.Hybridrecommendersystemsforelectroniccommerce[C].Proc.Knowledge-BasedElectronicMarkets,PapersfromtheAAAIWorkshop,TechnicalReportWS-00-04,AAAIPress.2000:78-83.[29]SmythB,CotterP.ApersonalisedTVlistingsserviceforthedigitalTVage[J].Knowledge-BasedSystems,2000,13(s2–3):53-59.[30]BurkeRD,HammondKJ,YoungBC.TheFindMeApproachtoAssistedBrows-ing[J].IEEEExpert,1997,12(4):32-40.[31]GroupLenslab.MovieLensDataset.http://www.grouplens.org/node/12.[32]DECResearch.EachMovieDataset.http://www.datatang.com/data/3383.[33]HerlockerJL,KonstanJA,BorchersA,etal.Analgorithmicframeworkforperform-ingcollaborativefiltering[C].Proceedingsofthe22ndannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,1999:230-237.[34]Cai-Nicolas.Book-CrossingDataset.http://www.informatik.uni-freiburg.de.[35]Netflix.NetflixDataset.http://www.netflixprize.com/index.[36]LemireD,MaclachlanA.SlopeOnePredictorsforOnlineRating-BasedCollaborativeFiltering[C].SIAM2005DataMiningConference,2005,5:1-5.[37]TitovI,McDonaldRT.AJointModelofTextandAspectRatingsforSentimentSummarization[C].Proceedingsofthe46thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,2008,8:308-316.[38]BrodyS,ElhadadN.Anunsupervisedaspect-sentimentmodelforonlinereviews[C].HumanLanguageTechnologies:The2010AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics,2010:804-812.[39]JoY,OhAH.Aspectandsentimentunificationmodelforonlinereviewanalysis[C].ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamin-ing,2011:815-824.[40]陈庆章,汤仲喆,王凯,等.采用数据挖掘的自动化推荐技术的研究[J].中文信息51 参考文献面向推荐系统的评论分析研究学报,2012,26(4):115-121.[41]GanuG,ElhadadN,MarianA.BeyondtheStars:ImprovingRatingPredictionsusingReviewTextContent[C].The12thInternationalWorkshopontheWebandDatabases.2009,9:1-6.[42]JoachimsT.Asupportvectormethodformultivariateperformancemeasures[C].Pro-ceedingsofthe22ndinternationalconferenceonMachinelearning,2005:377-384.[43]QuL,IfrimG,WeikumG.Thebag-of-opinionsmethodforreviewratingpredictionfromsparsetextpatterns[C].Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics,2010:913-921.[44]McAuleyJ,LeskovecJ.Hiddenfactorsandhiddentopics:understandingratingdi-mensionswithreviewtext[C].Proceedingsofthe7thACMconferenceonRecom-mendersystems,2013:165-172.[45]KorenY,BellR.Advancesincollaborativefiltering[M].Recommendersystemshandbook,SpringerUS,2011:145-186.[46]ZhangR,GaoY,YuW,etal.ReviewCommentAnalysisforPredictingRatings[C].The16thInternationalConferenceonWeb-AgeInformationManagement.Qingdao,2015:247-259.[47]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].theJournalofmachineLearningresearch,2003,3:993-1022.[48]MikolovT,SutskeverI,ChenK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C].AdvancesinNeuralInformationProcessingSystems,2013:3111-3119.[49]WangH,LuY,ZhaiC.Latentaspectratinganalysisonreviewtextdata:aratingre-gressionapproach[C].Proceedingsofthe16thACMSIGKDDinternationalconfer-enceonKnowledgediscoveryanddatamining,2010:783-792.[50]PangB,LeeL,VaithyanathanS.Thumbsup?:sentimentclassificationusingmachinelearningtechniques[C].ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing-Volume10.AssociationforComputationalLinguistics,2002:79-86.[51]DaveK,LawrenceS,PennockDM.Miningthepeanutgallery:Opinionextraction52 面向推荐系统的评论分析与研究参考文献andsemanticclassificationofproductreviews[C].Proceedingsofthe12thinterna-tionalconferenceonWorldWideWeb,2003:519-528.[52]PangB,LeeL.Seeingstars:Exploitingclassrelationshipsforsentimentcategorizationwithrespecttoratingscales[C].Proceedingsofthe43rdAnnualMeetingonAssocia-tionforComputationalLinguistics.AssociationforComputationalLinguistics,2005:115-124.[53]GoldbergAB,ZhuX.Seeingstarswhentherearen'tmanystars:graph-basedsemi-supervisedlearningforsentimentcategorization[C].ProceedingsoftheFirstWorkshoponGraphBasedMethodsforNaturalLanguageProcessing.AssociationforComputationalLinguistics,2006:45-52.[54]SarawagiS,CohenWW.Semi-MarkovConditionalRandomFieldsforInformationExtraction[J].AdvancesinNeuralInformationProcessingSystems,2015,17:1185-1192.[55]BagheriA,SaraeeM,JongFD.Anunsupervisedaspectdetectionmodelforsentimentanalysisofreviews[J].LectureNotesinComputerScience,2013,7934:140-151.[56]KiritchenkoS,ZhuX,CherryC,etal.NRC-Canada-2014:Detectingaspectsandsen-timentincustomerreviews[C].Proceedingsofthe8thInternationalWorkshoponSe-manticEvaluation(SemEval2014).Dublin,Ireland:AssociationforComputationalLinguisticsandDublinCityUniversity,2014:437-442.[57]HuM,LiuB.Miningandsummarizingcustomerreviews[C].TenthACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2004:168-177.[58]KiritchenkoS,ZhuX,MohammadSM.SentimentAnalysisofShortInformalText[J].JournalofArtificialIntelligenceResearch,2014,50:723-762.[59]WilsonT,WiebeJ,HoffmannP.Recognizingcontextualpolarityinphrase-levelsen-timentanalysis[J].InternationalJournalofComputerApplications,2005,7(5):347-354.[60]McauleyJ,LeskovecJ.Hiddenfactorsandhiddentopics:understandingratingdimen-sionswithreviewtext[C].ACMConferenceonRecommenderSystems,2013:165-172.[61]MillerGA.WordNet:alexicaldatabaseforEnglish[J].CommunicationsoftheACM,53 参考文献面向推荐系统的评论分析研究1995,38(11):39-41.[62]FuR,QinB,LiuT.ExploitingMultipleSourcesforOpen-DomainHypernymDis-covery[C].The2013ConferenceonEmpiricalMethodsinNaturalLanguagePro-cessing,2013:1224-1234.[63]LindenG,SmithB,YorkJ.Amazon.comRecommendations:Item-to-ItemCollabora-tiveFiltering[J].IEEEInternetComputing,2003,7(1):76-80.[64]KiritchenkoS,ZhuX,MohammadSM.SentimentAnalysisofShortInformalText[J].JournalofArtificialIntelligenceResearch,2014,50:723-762.[65]TangD,QinB,LiuT.Learningsemanticrepresentationsofusersandproductsfordocumentlevelsentimentclassification[C].Proceedingsofthe53thAnnualMeetingoftheAssociationforComputationalLinguistics,2015:1014-1023.[66]WangL,LiuK,CaoZ,etal.Sentiment-AspectExtractionbasedonRestrictedBoltz-mannMachines[C].Proceedingsofthe53thAnnualMeetingoftheAssociationforComputationalLinguistics,2015:616-625.54 面向推荐系统的评论分析研究攻读硕士学位期间取得的科研成果攻读硕士学位期间取得的科研成果论文1.马春平,陈文亮.2016.基于评论主题的个性化评分预测模型.北京大学学报(自然科学版).2016,52(1):165-170.(已发表)2.马春平,陈文亮.基于评论主题分析的评分预测方法研究.中文信息学报.(已录用)公开申请的专利1.陈文亮,马春平.一种评分预测方法与系统.已受理.(申请号:201510165907.8)2.陈文亮,马春平.一种网络评论的标签提取方法和装置.已受理.(申请号:201610143169.1)攻读硕士学位期间参与的科研项目1.国家自然科学基金面上项目.No.61572338.基于大规模无标注语料的跨领域跨语言汉语依存句法分析.2.国家自然科学基金青年项目.No.61203314.汉英双语依存句法分析模型和算法研究.55 致谢面向推荐系统的评论分析研究致谢时光荏苒,光阴似箭,一眨眼三年的研究生学习生活已经接近尾声。回顾这三年的研究生学习和科研工作,有太多的人要感谢,老师、同学、家人、朋友都不断地给我关心与支持,总是在我最需要的时候陪伴在我身边,我要向所有关心和帮助过我的人表示由衷的感谢。首先感谢我的导师陈文亮教授对我的悉心指导和帮助。陈老师治学严谨、认真负责、为人谦和,与学生交流时严谨又不乏幽默。从选题到实验,再到论文写作,陈老师都给予了我无微不至的指导。每次例会上都能循循善诱,指导我一步一步解决我所遇到的难题,并提出许多建设性的意见。帮助我修改论文,教我写作技巧,使我的论文写作水平有了很大的提高。另外陈老师在我找实习和工作的时候也给了我莫大的帮助,能够做陈老师的学生是我的幸运。感谢尊敬的张民老师,张老师严谨的治学态度和精益求精的工作作风让我非常敬佩,而以高标准来要求学生的培养方式更是让我受益万分。感谢李正华老师、熊德意老师、段湘煜老师。你们一丝不苟,追求卓越的科研精神,让我受益颇多。感谢丁扬,杨明明,王星,秦彦霞等师兄师姐们给予我的帮助和支持,特别是亦师亦友的丁扬师兄,无论是生活、工作、科研上遇到难题总是耐心地帮助我,教会了我很多人生的哲理。感谢研究生同学朱少华、惠浩添等,三年的学习生活中一直互相帮助,互相支持。感谢师弟郁俊杰,陈志鹏,卢奇等在我论文实验过程中给予的帮助。感谢我的室友王超超、刘义、李洋在生活上给予我的支持与帮助。感谢我的多年好友陈哲源,周家宇,王飞等,友情经岁月的洗礼更觉珍贵。每当我情绪低落,心情郁闷的时候他们总是成为我倾诉的对象,以后随着各自工作成家,见面的机会越来越少,但这份感情不会退化。最后特别要感谢我的父母,感谢他们的养育之恩,他们虽然文化水平不高,在学业上给我帮助有限,但勤奋善良的品质对我影响很大。如今,他们都已60岁的高龄,仍然在为家庭,特别是为我不停地奔波。他们再苦再累也支持我的读研决定,也在生活上给我无微不至的关怀,而在外求学的我却不能陪伴他们身边。看着他们日益增多的皱纹和满头的白发,我感到深深的内疚。即将毕业的我必将担起家庭的重担,让他56 面向推荐系统的评论分析研究致谢们过上幸福的生活是我以后最大的奋斗目标。论文写作过程中,参阅了大量科技文献和资料,在此,对这些文献和资料的作者和编者表示感谢。最后,感谢在百忙之中参与评审和答辩的各位专家老师。57 V'V马議辫麵^、、大学覃裹^苏^||硕'±学位论文(学术学位)?:.品思s觸进山巧探田^苏州大学研究生院统一印制

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭