基于hadoop的用户行为分析方法的应用研究

基于hadoop的用户行为分析方法的应用研究

ID:35057022

大小:5.51 MB

页数:68页

时间:2019-03-17

基于hadoop的用户行为分析方法的应用研究_第1页
基于hadoop的用户行为分析方法的应用研究_第2页
基于hadoop的用户行为分析方法的应用研究_第3页
基于hadoop的用户行为分析方法的应用研究_第4页
基于hadoop的用户行为分析方法的应用研究_第5页
资源描述:

《基于hadoop的用户行为分析方法的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:考皮營隹硕女俗身^—I,々44往旁''‘".、?V:'‘g’...-.挪巧:茫..-,■;',’-;V论文题目:基于Hadoop的用户行为分析方法的应用研究V奇,.节:片.-苗—繁甲巧TT。''遵子亏'r,.1213043032'Ir、%‘'—立.巧姓名陈娜姗.。导师盖平’专业学位类别;工稻硕±^品味?^与‘^:3公接类型全曰制

2、专业(领域)计算机技术论文提交日期二〇—六年五月■-'_■h'厂听I::VV.為,■.■■■>品X:-,'Vv..■i.南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究王作及取得的研究成果。尽我所知,除了文中特别加,论文中不包含其他人己经发表或撰写过tu标注和致谢的地方外的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己

3、在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。1研究生签名;屬M日期:T^ib.b.I7南京邮电大学学位论文使用授权声明本人授权南京邮电大学可保留并向国家有关部n或机构送交论文的复印件和电子文可档;允许论文被查阅和借阅;可W将学位论文的全部或部分内容编入有关数据库进行检索;.W采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质一论文的内容相致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。

4、涉密学位论文在解密后适用本授权书。研巧生签名;导师签名:日期:ResearchontheApplicationofUserBehaviorAnalysisbasedonHadoopThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByCHENShanshanSupervisor:Prof.ZONGPingMay2016摘要随着互联网技术的快速发展与成熟,每天都有大量的用

5、户行为数据产生并存储在网站服务器之上,如何挖掘潜藏在其中的用户价值和潜在利益已经成为当今互联网企业研究的重点。海量用户行为数据对传统的数据存储方式和数据挖掘算法都是一个挑战,而Hadoop正是为解决海量数据分析问题而诞生的。本文主要研究基于Hadoop的用户行为分析方法,在分别对Hadoop框架、Web日志挖掘以及聚类算法技术进行分析研究后,提出了一种基于Canopy的K-means聚类方法,改进后的算法解决了K-means算法在初始聚类中心的选定、异常点的处理以及分析数据的局限性问题。然后利用该算法设计了相应的用

6、户行为分析系统,对存储在HDFS分布式存储系统上的网站Web日志进行数据挖掘,利用MapReduce分布式计算模型,实现了对传统聚类方法Canopy算法和K-means算法的并行化执行,完成了对Web日志中用户行为信息的聚类分析。本文通过搜狗实验室的用户查询日志的真实数据进行了单机对比实验和集群加速比实验,实验结果验证了本文提供的基于Canopy的K-means聚类方法无论在单机还是集群都有较好的效果和性能,使得能够同时保证算法执行的效率和聚类的准确度。故本文提出的基于Hadoop的用户行为分析方法采用分布式架构,

7、执行效率高,适用范围广。关键词:Hadoop,MapReduce,用户行为分析,Web日志挖掘,K-means聚类,Canopy聚类IAbstractWiththerapiddevelopmentofInternet,alargenumberofuserbehaviordataisgeneratedandstoredontheservereveryday,sohowtodigtheuservalueandthepotentialbenefitsoutiswhatInternetbusinessfocusesonat

8、present.Massiveuserbehaviordataisagreatchallengetothetraditionaldatastorageanddataminingalgorithms.Inordertosolvethisproblem,herecomesHadoop.Thisthesisresearchesontheuserbehavioran

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。