欢迎来到天天文库
浏览记录
ID:35058650
大小:2.64 MB
页数:70页
时间:2019-03-17
《基于spark平台的实时流计算推荐系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391.3密级公开UDC004.4编号10299Z1308049专业硕士学位论文基于Spark平台的实时流计算推荐系统的研究与实现ResearchandImplementationofRealTimeStreamComputingRecommendationSystemBasedonSparkPlatform指导教师陈伟鹤作者姓名张贤德申请学位级别全日制工程硕士专业名称软件工程论文提交日期2016.06论文答辩日期2016.06学位授予单位和日期答辩委员会主席评阅人____________独创性声明本人郑重声明:所呈交的学位论文,是本
2、人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年月日学位论文版权使用授权书江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容
3、相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生院办理。本学位论文属于不保密□。学位论文作者签名:指导教师签名:年月日年月日江苏大学专业硕士学位论文摘要用户在面对海量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低,这就是信息超载问题。推荐系统是一种解决信息超载问题非常有效的办法,它根据用户的信息、兴趣等,将用户感兴
4、趣的信息或商品推荐给用户。然而,现有的推荐系统大多是通过定期计算来更新推荐结果,造成推荐结果不够精确,这就是推荐系统的实时性问题。另外,对于新加入的用户或商品由于缺少必要的数据,因此无法对其产生推荐,这就是所谓的冷启动问题。针对上述问题,本文旨在解决推荐算法的冷启动问题和推荐系统的实时性问题,并设计与实现一个基于Spark实时流计算的推荐系统,即根据实时数据更新推荐结果。本文的主要研究内容包括:(1)针对推荐算法的冷启动问题,提出基于聚类与特征映射的矩阵分解算法。该算法首先对用户/商品的属性信息进行聚类,得出新用户/新商品的k个最近邻。然后对新
5、用户/新商品进行特征映射,用k近邻的特征信息计算出新用户/新商品的特征向量,有了这些特征向量就可以对新用户/新商品进行推荐,解决了算法的冷启动问题。实验表明本文提出的基于聚类与特征映射的矩阵分解算法的推荐结果更加精确。(2)针对推荐系统的实时性问题,设计一个能够实时计算的流处理架构。该架构把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力。所设计的实时推荐系统采用Spark做在线处理,并且能够根据用户在线评分和历史评分数据集来实时计算,实现了推荐结果的实时更新。(3)基于Spa
6、rk的实时流计算推荐系统的设计与实现。首先对实时流计算的推荐系统进行需求分析,包含功能需求分析、性能需求分析和总体架构分析。然后对系统进行设计,包括三个关键模块:一是对模拟用户评分模块进行设计,包含数据的范围、数据的格式和数据产生的频率及数量等。二是对基于SparkStreaming的实时流计算模块进行设计,包含实时流计算和一些关键性的功能的I基于Spark平台的实时流计算推荐系统的研究与实现设计。三是基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和推荐商品等。最后完成了实时流计算的推荐系统的实现,主要实现模拟用户评分、实时流
7、计算和推荐引擎三个主要功能。关键词:冷启动问题,实时性问题,实时流计算,在线计算,推荐系统II江苏大学专业硕士学位论文ABSTRACTUsersinthefaceofmassiveinformationcannotgettherealusefulinformationforthemselves,resultinginareductionintheuseefficiencyofinformation,whichistheinformationoverloadproblem.Recommendationsystemisaveryeffectivew
8、aytosolvetheinformationoverloadproblem,whichrecommendstheuserinterestedinfo
此文档下载收益归作者所有