基于mapreduce的协同过滤推荐算法研究

基于mapreduce的协同过滤推荐算法研究

ID:33545603

大小:4.43 MB

页数:76页

时间:2019-02-27

基于mapreduce的协同过滤推荐算法研究_第1页
基于mapreduce的协同过滤推荐算法研究_第2页
基于mapreduce的协同过滤推荐算法研究_第3页
基于mapreduce的协同过滤推荐算法研究_第4页
基于mapreduce的协同过滤推荐算法研究_第5页
资源描述:

《基于mapreduce的协同过滤推荐算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:醯豳亟日期:21垒:(:呈关于学位论文使用权的说明本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术

2、交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:出N·导师签名:塑坐:6:壁塑缝.6.叟万方数据太原理工大学硕士研究生学位论文基于MapReduce的协同过滤推荐算法研究。。。。摘要删Y269㈣3627随着信息技术的飞速发展,Intemet已成为包含海量信息和用户的复杂网络,为全世界人们传递和共享信息。然而,海量的信息资源导致了“信息迷茫’’和“信息过载”等问题,使人们常常在信息的海洋里迷失方向,越来越难以准确、高效地获取自己需要的信息。为此,个性化服务技术应时而生。推荐系统作为一种成熟

3、的个性化服务技术己在社区交友、电子商务和科学研究等领域得到了广泛的应用。常用的推荐技术包括:协同过滤推荐、基于模型的推荐、基于内容的推荐和混合推荐。其中,协同过滤技术因其推荐精度高、实现简单、易于用于实际系统而备受青睐。然而,除了稀疏性和冷启动问题外,经典的协同过滤算法,另一个最大的缺点是可扩展性问题,即随着商品和用户数量的增加,计算时间迅速的增加,影响了推荐的实时性。本文针对协同过滤推荐算法的可扩展性问题,从项目或用户向量的表示方法入手,剖析了对象属性严格匹配的缺陷,提出了基于均模型的协同过滤推荐算法。另外重点考察了系统的运行模式,设计实现了一种新的基

4、于MapReduce分布式框架的协同过滤推荐算法。本文的创新点主要有两个,一是采用均模型来表示项目或用户的特征,该模型通过抽取项目或用户的关键特征,适当浓缩向量的长度,为在大规模数据集上进行高效、实时的推荐提供支持;二是通过评测经典协同过滤推荐算法的关键步骤,找到了适合用于MapReduce编程模式改进的方法,万方数据太原理工大学硕士研究生学位论文并基于Hadoop实现原理选用合适的Map与Reduce方案,将基于均模型的协同过滤推荐算法的三大关键步骤所涉及的数据表达、计算等问题转换为Map或Reduce操作,实现了算法的并行化。本文采用的检测数据是Gr

5、ouplens提供的MovieLens100k、MovieLens1M、MovieLens10M---"个数据集,主要从算法精度和运行时间两方面对经典基于项目的协同过滤推荐算法、基于云模型的推荐算法和基于均模型的协同过滤算法进行了对比实验。实验结果表明:基于均模型的协同过滤推荐算法在确保精度的前提下,能有效缩短项目相似性计算时间,易于处理大数据;基于MapReduce的协同过滤算法使推荐系统具有了更强的并行能力以及可扩展性和容错性。最后为证实本文所提算法的实用性。设计实现了一个基于上述方法的原型系统,并对其进行了评测。关键词:大数据,推荐系统,协同过滤,

6、均模型,MapReduceII万方数据太原理工大学硕士研究生学位论文RESEARCHONCOLLABORATIVEFImR阱GRECOM毗旺INDATIONALGOR【,11}王MSBASEDONⅣ【APREDUCEABSTRACTWiththerapiddevelopmentofinformationtechnology,Internethasbecomeacomplexnetworkcontaininghugeamountsofinformationandusers,andplayedanimportantroleontransmittingands

7、haringinformationfortheworld.However,agooddealofinformationresourcesledtothe”informationlost”and”informationoverload”andotherissues,sousersoftendisorientateintheseaofinformation.Itismoreandmoredifficulttoaccuratelyandeffectivelyobtaintheinformationmeyneed.Then,personalizedservice

8、technologyemergesasthetimesrequire.Recom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。