欢迎来到天天文库
浏览记录
ID:35058639
大小:2.80 MB
页数:65页
时间:2019-03-17
《基于spark平台的协同过滤算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10564学号:2014307809分类号:TP391密级:硕士学位论文基于Spark平台的协同过滤算法的研究与实现郑炳维第一指导教师:刘财兴教授第二指导教师:学院名称:数学与信息学院专业学位类别:工程领域:计算机技术答辩委员会主席:韩国强教授中国·广州2016年6月华南农业大学学位论文原创性声明本人郑重声明:所呈交的学位论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的作品成果。对本文的研究做出重要贡献的个人
2、和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:日期:学位论文提交同意书本学位论文符合国家和华南农业大学关于研究生学位论文的相关规定,达到学位授予要求,同意提交。导师签名:日期:学科带头人签名:日期:摘要随着互联网技术的快速发展,大数据时代已经到来。面对互联网庞大而丰富的数据资源,如何从中获取有价值的信息已经成为一个急需解决的问题。个性化推荐系统的诞生就是为了解决这样的信息过载问题,推荐系统可以根据用户历史行为数据挖掘出相关信息并主动给用户做产品或服务推荐。在传统的
3、协同过滤推荐算法研究中,单机平台需要耗费大量的时间来处理海量的用户行为数据,单机算法并行化是解决这个问题的一个方案。Spark是一个特别擅长于迭代式的机器学习运算的基于内存的分布式计算框架,把需要重复迭代运算的推荐算法在Spark平台并行化实现,将大大缩短算法的运行时间。本论文基于Spark平台对几个协同过滤算法进行了原理分析与并行化实现。首先对Spark平台和常用推荐算法进行了介绍,着重介绍了基于物品的协同过滤算法以及基于隐语义模型的协同过滤算法,为算法的并行化实现奠定基础。对于基于物品的协同过滤算法
4、,本论文基于Spark平台实现了皮尔逊相关系数、修正的余弦相似度、加入偏置信息的相似度等几种物品相似度计算方法,对评分预测公式加入惩罚因子解决当邻域信息不足时评分预测精度降低的问题。对于基于隐语义模型的协同过滤算法,本论文使用交替最小二乘法求解矩阵分解问题,并利用Spark平台的GraphX组件对用户-物品关系建立二分图模型,通过并行图计算的方式交替更新用户因子矩阵和物品因子矩阵,提高了算法的运行效率。最后,本论文把基于物品的协同过滤算法和基于隐语义模型的协同过滤算法进行模型融合,设计了一个用于融合多个
5、协同过滤算法的线性模型,并利用最小二乘法求解权重,根据数据自动训练出各个算法的重要程度,使得融合后的模型显著降低了评分预测的误差。在公开数据集MovieLens上进行多组对比实验表明,即使在单个节点上运算,利用GraphX实现的基于交替最小二乘法的协同过滤算法运行时间也远远少于传统的单机算法实现。此外,对评分预测公式加入惩罚因子惩罚邻域信息能够提高基于物品的协同过滤算法评分预测的精度。最后,对两个协同过滤算法进行模型融合能在现有算法的基础上进一步提高算法的精度,使得多个协同过滤算法组合能够适应不同的场景
6、。关键词:协同过滤算法;Spark平台;图计算;模型融合ITheResearchandImplementationofCollaborativeFilteringAlgorithmonSparkPlatformZhengBingwei(CollegeofMathematicsandInformatics,SouthChinaAgriculturalUniversity,Guangzhou,510642,China)Abstract:WiththerapiddevelopmentofInternettec
7、hnology,theeraofbigdatahasarrived.HowtoderivevaluableinformationfromthemassiveandrichdataresourcesofInternethasbecomeanurgentproblem.Personalizedrecommendationsystemisoneoftheeffectivewaystosolvetheproblemofinformationoverload.Recommendersystemsanalyzepa
8、tternsofuserinterestinitemsorproductstoproviderecommendationsforitemsandservicesthatwillsuitauser’staste.Intheresearchoftraditionalcollaborativefilteringalgorithms,ittakesalotoftimetoprocesslarge-scaleuserbehaviordataontra
此文档下载收益归作者所有