欢迎来到天天文库
浏览记录
ID:33186617
大小:3.69 MB
页数:39页
时间:2019-02-21
《基于聚类技术的协同过滤推荐系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东南大学硕士学位论文基于聚类技术的协同过滤推荐系统研究姓名:黄裕洋申请学位级别:硕士专业:计算机科学与技术;计算机软件与理论指导教师:金远平20110310摘要随着互联网的普及与电子商务的快速发展,用户在选择商品时面临越来越严重的信息超载问题,协同过滤推荐系统应运而生.它依据其他用户对信息做出的评价来向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。作为至今最成功的推荐技术,协同过滤推荐已得到了广泛的应用。但随着推荐系统的广泛应用和对其研究的不断深入,又出现了包括精确性、数据稀疏性、冷启动、可扩展性等在内的
2、一系列问题与挑战。本文对其中的数据稀疏性和可扩展性问题进行了重点探讨和研究,并在此基础上提出了一个完整的解决方案。首先,论述了协同过滤推荐系统在国内外的研究历史和现状,对目前的系统体系结构以及已有的协同过滤推荐算法设计等关键技术进行了较为全面深入的分析,在探讨已有研究成果的基础上进一步凝练了推荐系统的关键问题。接着,深入分析了当前制约协同过滤推荐系统发展的关键问题及其产生的原因和可能导致的后果,并进一步阐述了各种已有的解决办法。针对数据稀疏性问题和可扩展性问题,在前人研究的基础上,构造了一种以新的组合协同过滤推荐算法(I
3、HCFR)为基础的组合协同过滤推荐系统。与已有算法相比,新的推荐算法主要有以下改进:1)将基于模型和基于内存方法相组合。基于模型是指离线状态下根据用户评分数据建立推荐模型,在运行期间将建立的推荐模型载入内存进行匹配计算:基于内存是指在算法运行期间将整个评分数据库都载入内存进行计算。IHCFR推荐算法利用聚类技术对用户评分数据进行用户和项目的向量分离并分别单独对用户和项目进行聚类,在需要实时产生推荐时,利用已有的聚类结果计算最近邻居集合并以此产生推荐结果.聚类采用基于余弦因子改进的混合聚类算法(SG删),它结合了K-mea
4、ns聚类算法的高效局部搜索能力和遗传算法的全局优化能力,采用交叉和变异概率的自适应控制,并在交叉和变异操作时用基因余弦因子(Gc0S)进行个体控制,确保差的个体不会被引入下一代,有效改善聚类效果,进而提高在线推荐精度。聚类的使用可以有效提高在线推荐的时间效率,当系统进一步扩展和数据量快速增长时,通过聚类算法周期性地重新训练和优化聚类结果簇,使得最近邻查找和产生推荐的候选集始终限定在一个较小的范围内,一定程度上缓解了系统的可扩展性问题。2)将基于用户和基于项目相组合。在需要产生推荐时,综合考虑用户和项目的影响因素,分别计算
5、目标用户和目标项目的最近邻集合,根据当前评分数据的稀疏情况自适应地调节目标用户和目标项目的最近邻对最终推荐结果的影响权重,给出最终推荐结果。在进行相似性的度量时,考虑到数据稀疏性,在相关相似性的基础上将用户之间共同评分的项目比例作为度量相似性的一个辅助因素,并且设置了一个权重指数来用于调整相似度的值空间,最大程度的降低数据稀疏性带来的影响。最后,通过一系列实验来验证所提出算法的有效性。实验结果表明,本文提出的IHCFR组合协同过滤推荐算法能有效提高可扩展性,并能在用户评分数据极端稀疏情况下保持推荐系统的推荐质量。关键词:
6、协同过滤,组合推荐,K-means聚类算法,遗传算法,电子商务AbstractWiththepopularityoftheInternetandtherapiddevelopmentofelectroniccommerce,usersselectingcommoditiesarefacedwithmoreandmoreseriousprobllemofinformationoverload.Basedonotheruser’Sevahationtoinformation,collaborativefilteringrec
7、ommendationsystemcomesintobeingtoprovidecommodityrecommendationSOthatusersCanfindwhattheyneedandsuccessfullycompletethepurchaseprocess.Asthemostsuccessfulrecommendationtechniquebyfar,collaborativefilteringrecommendationhasbeenwidelyusecLHowever,withthedeepeningof
8、itsapplicationandresearch,newissuesandchallengeshaveemerged,includingrecommendationacCuracy,datasparsity,coldstartandscalabiIity.Thispaperaddressestheproblerao
此文档下载收益归作者所有