欢迎来到天天文库
浏览记录
ID:15546840
大小:5.41 MB
页数:53页
时间:2018-08-04
《netflix prize中的协同过滤算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、吴金龙导师:鄂维南、李铁军2010-05-28PartI:背景介绍推荐系统NetflixPrize协同过滤(CollaborativeFiltering)问题PartII:协同过滤(CollaborativeFiltering)模型评分预测模型模型组合方法PartIII:三维协同过滤:立方填补应用背景评分预测模型PartIV:总结与展望NetflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)2推荐系统NetflixPrize协同过滤(CollaborativeFiltering)问题Net
2、flixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)3PartI:背景介绍——推荐系统依据信息检索的方式,互联网的发展可分为三个阶段门户网站阶段,典型代表为Yahoo为互联网上的重要信息提供导航搜索引擎阶段,典型代表为Google依据用户输入的关键词,返回给用户与关键词相关的网页个性化推荐阶段依据用户的特点和需求,为用户提供个性化的服务推荐系统作用利用历史,预测现在与未来常用领域传统的零售行业互联网行业搜索引擎:Google电子商务:Amazon社会化网络服务(SNS):FacebookNe
3、tflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)4PartI:背景介绍——推荐系统基于内容的过滤(content-basedfiltering,简记为CBF)根据事先抽取出的产品或用户特征产生推荐主要缺点需要预处理产品以得到代表它们的特征无法发现用户并不熟悉但具有潜在兴趣的产品种类协同过滤(collaborativefiltering,简记为CF)收集用户过去的行为以获得其对产品的显式或隐式信息优点不需要预处理产品或用户的特征,故而不依赖于特定的应用领域主要缺点冷启动:对于新用户或新产
4、品,无法产生可靠推荐可扩展性:算法往往需要较大的时间和空间复杂度两者的组合(hybrid)组合上面两种方法,以克服它们各自的缺点,并融合它们特有的优点NetflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)5PartI:背景介绍——NetflixPrizeNetflix:美国一家提供在线电影租赁服务的公司2006年10月,Netflix建立了NetflixPrize竞赛,并对外发布了一个电影评分(评分为1,…,5的整数)数据集NetflixPrize竞赛最终的目标是在Cinematch推荐
5、系统的基础上获得10%的改进,其预测精度由均方根误差(RMSE)来衡量:GrandPrize,奖金为一百万美元第一个达到10%改进的参赛团队ProgressPrize,奖金为五万美元每年排名第一的参赛团队NetflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)6PartI:背景介绍——NetflixPrizeCompleteNetflixPrizeDataset480,189个用户17,770部电影FirstPartofTrainingHeldOutSet(FPTS)Set(HOS)99,
6、072,1124,225,526个评分个评分WholeTrainingProbeQuizSetSet(WTS)Set100,480,507Test个评分Set给出了整体训练数据集(WTS)中的评分值及对应的评分时间参赛团队提交整个QualifyingSet上的预测评分值NetflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-05-28)7PartI:背景介绍——NetflixPrize2009年6月26日团队BellKor’sPragmaticChaos(BPC)的提交在QuizSet上获得0.855
7、8的预测误差,改进首次超过10%,竞赛进入最后三十天角逐2009年9月10日NetflixPrize官方正式宣布BPC为竞赛的最终胜利者,获得GrandPrize,整个竞赛正式结束已颁发的奖项及获奖团队奖项获奖团队TestRMSEProgressPrize2007KorBell0.8723ProgressPrize2008BellKorinBigChaos0.8627GrandPrizeBellKor’sPragmaticChaos0.8567NetflixPrize中的协同过滤算法吴金龙@SMS.pku.edu.cn(2010-0
8、5-28)8PartI:背景介绍——NetflixPrize极度稀疏性WTS中包括了480,189个用户对17,770部电影的评分,而评分值只有100,480,507个,也即近99%的评分值未知长尾性大部分用户只对极少的电影进行了评分
此文档下载收益归作者所有