欢迎来到天天文库
浏览记录
ID:53026861
大小:195.27 KB
页数:4页
时间:2020-04-14
《关于推荐系统的数据存储研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、文章编号:1007—1423(2015)12—0030—04DOI:10.3969~.issn.1007—1423.2015.12.007关于推荐系统的数据存储研究徐彬,何文娟,钱亚彬(河南大学计算机与信息工程学院,开封475000)摘要:随着互联网的快速发展.电子商务行业的丰富化加剧,推荐系统被广大用户和网站运营商所接受。而随着大数据时代的来临.推荐系统面I临的不仅仅是对产品的需求更多的是对速度的追求,经过对传统数据存储算法的研究,给出基于RCFile的数据存储来解决该类问题。关键词:存储;RCF
2、ile;RDSR;推荐系统0引言MapReduce包含了两个部分:Map(映射)和Reduce(归约)。随着互联网的快速发展.电子商务行业也随之急速地发展.人们面临着多样化的商品选择。这就意味着2推荐系统人们的选择范围越来越大.更多的商品是不能快速地2.1基本概念被顾客看到的。这种电子商务的背景下,推荐系统服务推荐系统是电子商务网站通过对用户的行为分正在以一种十分迅速的方式进入人们的视线.与此同析.给用户提供推荐服务的系统.使得用户能够更快速时爆炸式的数据也充斥在电子商务中间.新加入用户更准确地找到
3、适合自己的产品.这种推荐的行为是模的数据越来越多.新加入的产品信息也越来越多.对于拟销售人员向顾客推荐产品帮助购买的过程推荐系统来说.新用户的加入、新的产品的加入有很推荐系统的定义为利用函数计算目标用户的推荐多.另外针对推荐系统的推荐算法,数据的查询也同样度(如用户的评价和邻居用户的评价等),其中需要用需要一种合适的存储算法来加快查询的效率。本文将到所有的用户的集合.通过函数计算出给目标用户推引入一种高效的存储算法.以便于能够更有效地处理荐的产品集合[31。公式如下:推荐系统中的用户和产品数据.使得
4、推荐系统能够更VC∈C,s=argmaxlx(c,s)(1)加快速地添加、查询用户和产品的信息。5ES较为经常用到的推荐算法有:基于协同过滤推荐、1国内外研究背景基于内容推荐、基于关联规则推荐、混合型推荐等。目前国内外的推荐系统针对大数据的环境.通常(1)基于系统过滤推荐:提取出系统中与被推荐用运用开源的框架Hadoop来架构系统,用来处理大规模户有着相同爱好的用户的历史评论和购买行为.预测的数据集Il_.Hadoop是由HDFS和MapReduce两个核出被推荐用户的可能喜欢的产品。心部分组成.即
5、包括了分布式文件系统和编程模型两(2)基于内容推荐:提取出系统中被推荐用户自己个部分。的行为.跟踪用户的行为数据.通过这些数据推测出用MapReduce是Had00D的数据处理部分也称为编户可能喜欢的产品程模型田,是运用在大规模的数据集合中的重要技术(3)基于关联规则推荐:提取出系统中不同产生关①现代计算机2015.04下三/联的信息.将这些信息运用到被推荐用户的推荐中.给被推荐用户推荐与他已经购买的产品相关联的其他的产品。(4)混合型推荐:鉴于这些常用的推荐算法都有一定的缺点,在实际运用中并不能达
6、到我们的要求.因此,实际的推荐系统大多把不同的推荐算法进行结合2.2推荐系统数据处理要求由于使用推荐系统的用户需要的是能够快速地加入系统[41.这就意味着需要一种能够将数据快速载人的图1存储方式.这种需求在大数据的环境下显得更为重要.人们要求数据的加载时间要更加的短暂l~elation通过上文介绍的推荐系统的几种推荐算法可以得ABCD知.推荐系统的推荐算法很多都是基于提取出已有的101111121131信息为基础.将已经提取出的信息进行解析计算,来得1O21121221321O3113123i33出
7、被推荐用户所需要的产品.针对这样一种情况我们io4114124134105115125135需要一种能符合实时查询请求和高并发用户提交查询的优化算法.这就需要底层的存储结构能够在查询不断增加时还能够拥有较高的查询处理速度3传统的数据处理策略由于以上几个推荐系统的数据处理要求.实现了一个基于数据仓库技术的推荐系统的MapReduce的数据存储结构设计.关键的挑战在于如何在MapReduce图2环境中满足上文所述的推荐系统的几个数据处理要4基于RCe的推荐系统数据存储算法求。传统的推荐系统,数据库系统,
8、对三种数据存储结构进行了广泛的研究.而以上几种结构都有其自身优本文介绍的RCFile算法是一种类似于PAX混合缺点并不能够很好地满足在大数据环境下的推荐系统存储算法的算法.先利用水平分组.再竖直分组的方式的需求。来进行存储与行存储相似的地方在于.RCFile的同一3.1撩春行信息都在一个节点上.另外与列存储不同的地方在行存储(Row—store)是目前推荐系统最常用的数据于.RCFile能够垂直地进行数据压缩.并能不读取不必存储结构圈.是按照行的方式储存数据的.在推荐
此文档下载收益归作者所有