欢迎来到天天文库
浏览记录
ID:23544239
大小:6.16 MB
页数:38页
时间:2018-11-08
《基于mahout的几种推荐算法的组合实现与评测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据硕士学位论文MASTER‘STttESIS第一章绪论1.1课题的研究背景信息技术和互联网迅猛发展,与原来的信息匮乏相比,信息爆炸使人们周围充斥着各种各样的数据,被称为信息过载(informationoverload)【1】。在这样的环境中,信息消费者和生产者共同面对一个前所未有的难题:海量数据鱼龙混杂,消费者在想怎么才能快速定位自己感兴趣的信息;而生产者在意的是自己生产的所有信息都能被准确推送到合适的用户面前,不同的信息推送给不同的用户。推荐系统就是联系用户和信息的桥梁和纽带,帮助行业中的每个人更好的实现自身的价值,使我们互利共赢。众所周知,针对信息过载的矛盾,很多好的解决方案被不断的
2、提出来,其中具有代表性的两种解决方法是分类目录和搜索引擎。互联网领域两家著名的公司——雅虎和谷歌就是应这两种方案而生。雅虎最开始的业务就是分类目录,类似的分类目录网站还有国外的DMOZ、国内的Ha0123[2]等。但是互联网规模增长的速度太快了,这些分类目录公司已经越来越不能满足用户的需求。因此,搜索引擎诞生了。如果想找到自己需要的信息,用户必须要通过搜索引擎输入关键词,这就产生一个矛盾,如果用户无法确切的描述自己需求,搜索引擎就无能为力了,就是说,搜索引擎需要用户能够准确的描述自己的需求来寻找他需要的信息。推荐系统可以有效解决这一问题,它能像搜索引擎一样帮助用户快速发现有用信息,并且不需要用
3、户主动提供关键词。和搜索引擎不同的是,通过分析用户过去的行为,推荐系统为用户建立兴趣模型,从而主动为用户提供感兴趣的内容。因此,从这个角度来说,推荐系统和搜索引擎可以互为补充:当用户能够主动准确描述自己的需求时,就用搜索引擎,而推荐系统则主动向用户进行推荐,满足了用户的被动需求。2006年,《长尾理论》一书面世【3】。该书源于一篇名为“TheLongTail”(长尾)的论文,作者是美国《连线》杂志主编ChrisAnderson。该书指出,由于有了互联网的参与,过去的80/20原则(80%的销售额来自于20%的热门品牌)会迅速改变。互联网条件下,由于销售成本非常的低廉,电子商务网站的销量会大大超
4、过传统零售商店。电商的很多商品都是冷门商品,但是由于数量巨大,其总销售额绝对不容忽视。或许会超过传统热销产品。而长尾商品的用户一般是小众的,他们有着更为个性化的需求。因此,充分挖掘不同用户对商品的喜好,对这部分商品的销售显得万方数据硕士学位论文MASTER‘STHESIS至关重要,这是个性化推荐系统的一个主要任务。1.2相关研究历史及现状1.2.1国外研究历史及应用现状目前互联网世界随处可见推荐系统的身影。其业务涵盖电子商务、音乐视频网站,在线广告等。推荐系统首先要建立用户模型,包括向量空间模型【4】、机器学习技术IS]在内的技术等常都可以用于用户建模。文献【6】提出智能代理技术建立用户模型。
5、关于推荐算法,协同过滤算法基于用户之间的协同性,即邻居用户产生推荐结果,应用最为广泛。推荐系统规模的不断扩大对实时性的要求越来越高。海量数据的复杂性造成特征向量的高维度,文献【7】提出一种采用奇异值分解技术的方法来降低特征向量空间的维度。很多数据挖掘技术也加入推荐系统的行列[8】,因为传统的协同过滤算法需要用户对物品进行显式的打分,操作不方便,效果不理想,所以很多信息需要利用web挖掘技术来对网络数据进行数据挖掘。此外,还可以利用神经网络和遗传K-means算法来获取用户偏好,具体方法是分析用户在电子商务网站的浏览路径[91。推荐系统的应用方面,许多著名研究机构和个人对此表示出极大的兴趣,在信
6、息检索和信息过滤领域占有重要位置,出现了一些研究型推荐系统实例:(1)TYPESTRY:该协同过滤系统由XeroxPARC研究中心提出,用于过滤电子邮件、推荐电子新闻。但是当客户群体比较大的时候,客户无法自己明确指出与自己兴趣爱好相似的其它客户,这个要求无法满足。(2)ACF:为了推荐电子文档,Carnegie—Mellon大学开发了一个名为ActiveCollaborativeFiltering的主动协同过滤推荐系统。同样它只适用于用户群体较小的情况。(3)MovieLens:Minnesota大学开发了一个通过浏览器对电影进行评分的自动协同过滤推荐系统。与GroupLens不同,基于web
7、的方式,用户对数据进行提交,系统收集并显示推荐结果,从而使用更方便。(4)GroupLens:GroupLen:系统要求用户首先提交评分信息,然后经过计算找到用户的最近邻,最后根据评分信息产生最终的推荐结果。(5)FAB:Stanford大学数字图书馆项目组开发的FAB推荐系统,结合使用基于内容的推荐和协同过滤推荐两种方式来推荐web页面【10】。1.2.2国内研究历史及应用现状目前国内对推荐系统
此文档下载收益归作者所有