基于mapreduce的海量点击流信息挖掘研究

基于mapreduce的海量点击流信息挖掘研究

ID:33763048

大小:1.07 MB

页数:53页

时间:2019-02-28

基于mapreduce的海量点击流信息挖掘研究_第1页
基于mapreduce的海量点击流信息挖掘研究_第2页
基于mapreduce的海量点击流信息挖掘研究_第3页
基于mapreduce的海量点击流信息挖掘研究_第4页
基于mapreduce的海量点击流信息挖掘研究_第5页
资源描述:

《基于mapreduce的海量点击流信息挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文题目:基于MapReduce的海量点击流信息挖掘研究研究生冯宗伟专业计算机应用技术指导教师胡维华教授完成日期2013年12月杭州电子科技大学硕士学位论文基于MapReduce的海量点击流信息挖掘研究研究生:冯宗伟指导教师:胡维华教授2013年12月DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterMiningofMassiveClick-streamInformationbasedonMapReduceCandidate:Zon

2、gweiFengSupervisor:Prof.WeihuaHuDecember,2013杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位

3、论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:日期:年月日指导教师签名:日期:年月日杭州电子科技大学硕士学位论文摘要随着互联网与电子商务的快速发展,网站产生的点击、商品、交易等数据呈现海量数据式增长。淘宝网(taobao.com)中的页面每

4、天点击超过2亿次以上,商品成交超过5000万次/天。巨大的访问量带来了巨大的浏览记录与交易记录,挖掘这些记录中蕴含的用户信息成为时下网站建设者们最迫切的需求。点击流是用户在一个Session会话内点击URL链接而被记录的访问路径,挖掘点击流数据可以发现商品频繁点击序列,并尝试从点击流的角度优化个性化商品推荐算法。MapReduce计算模式是目前主流较为稳定的分布式计算平台,本文充分利用MapReduce在矩阵运算与聚合运算上的优势,改进传统挖掘算法在分布式环境下的数据共享、中间知识集吸收等问题,从而解决海量数据挖掘瓶颈,获

5、得挖掘效率的提升。本文的主要工作和创新点如下:首先,本文使用HDFS构建的数据仓库+MapReduce实现开源分布式数据挖掘框架,采用自定义文本方式存储海量点击数据,使用MapReduce计算模式实现数据集的投影、选择、并、交、叉、连接等数据集操作,进而实现在HDFS中进行数据的清洗与预处理操作。其次,本文提出在MapReduce数据操作基础上使用点击树来还原一个完整Session会话内的用户点击路径,真正反映用户最原始的点击动机。在这基础之上优化原始BIDE频繁序列模式挖掘算法,消除前缀树生长过程中的递归方式,使挖掘任务

6、在2个MapReduce任务内就能完成。最后,本文尝试从点击流数据、用户长期偏好数据多维度优化个性化推荐算法,给出一个基于点击流的ItemCF综合推荐算法应用。算法基于用户点击模式与用户长期偏好特征,引入时间因子到项相似度计算中。最终利用逻辑回归模型综合模式融合多种维度特征,给出商品Top-N推荐值排名,实验结果表明综合推荐算法效果有显著提升。关键词:点击流,频繁序列模式,MapReduce,数据仓库,ItemCF,模式融合I杭州电子科技大学硕士学位论文ABSTRACTWiththecontinuousdevelopmen

7、tofInternetandE-commerce,theclick,tradeandcommoditiesdatageneratedbywebsitealsoshowedmassivedatagrowth.Taobao.cominheritsmorethan200milliontimespagehitsandover50millioncommoditiestradedperday.Thehugeamountofaccessbringsanenormoustransactionandhistoryrecords,mining

8、massivedatacontainsinformationontheE-commercehasbecomewebsitebuildersthemosturgentneeds.Click-streamareuserclickingonURLlinkswithinasessionclickpathreco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。