基于hadoop的web日志存储及预处理优化研究

基于hadoop的web日志存储及预处理优化研究

ID:35056929

大小:2.45 MB

页数:70页

时间:2019-03-17

基于hadoop的web日志存储及预处理优化研究_第1页
基于hadoop的web日志存储及预处理优化研究_第2页
基于hadoop的web日志存储及预处理优化研究_第3页
基于hadoop的web日志存储及预处理优化研究_第4页
基于hadoop的web日志存储及预处理优化研究_第5页
资源描述:

《基于hadoop的web日志存储及预处理优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、l&[il£fll:.~HebeiUniversityofEngineering~-THadoopU1Web13~If1ilfF~!&~:~*~fmlm;........:....--~m~fX~ijj=Jt1~Jt~~~f~-v~:it~tft~4~~11*Jilf~~~:1~L@)=Jlt'9:If¥~~*J~-~~=M~~~~ffl~~.~*A~~m~m~~.~~illlim~I~m~1~!¥1!1Jt*·~x.PE!£¥1:sJ351mI¥Jr*J:g7~.:tts:itx/G151:I1orJt1m-t-AM~-i*L,tS:'N..:

2、&!lXm:§]ttffgijf1t~*.iB::;r:'PI.-@!7J~~1~)Of;fr.~11.*-~~;t;t1tP.~w:m~tJS{J~111:~iiE-=r;rm1~fflctEr-J~~-~*~I¥J~~-~-~~~~~A~-~~~Ba~~~~T~-~m~**~7Wt.*A%~am~*~OO~~~~*~*Affiffi.~tl(~Of;Jt..I-/fl.:k._!l!f"BJtJ~:if¥1:•1:it~89~$M$)1-J*J?6~A1L¥~t'It@1$illi-Tt&~,**fflJJEp,miEPMB:fi'H~~11

3、iU-'f-~{*:ff,£~tl.f~t~r*J5fr:Jf~r~tloraJ:@:*~[fl]§Y&.:~~'mHlWGtJl:tt.J:i1;:3(~JtI¥J][Ep1tf;f!l~-T-Jt:t~•c~w~~ffi~xa•*m~m*~~~~)分类号:TP311密级:公开UDC:单位代码:10076工学硕士学位论文基于Hadoop的Web日志存储及预处理优化研究作者姓名:宋园园指导教师:黄伟建教授申请学位级别:工学硕士学科专业:计算机科学与技术所在单位:信息与电气工程学院授予学位单位:河北工程大学ADissertationSubmitte

4、dtoHebeiUniversityofEngineeringFortheAcademicDegreeofMasterofEngineeringStudyonWebLogStorageandPre-processingOptimizationbasedonHadoopCandidate:SongYuanyuanSupervisor:Prof.HuangWeijianAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyCollege/De

5、partment:SchoolofInformationandElectricalEngineeringHebeiUniversityofEngineeringMay,2016摘要互联网、移动互联网等技术的发展,使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为,对网站建设和提供精准服务具有重要的指导意义。但是,原始Web日志文件中数据的通常是不完整、冗余甚至错误的,直接使用这些数据进行日志分析非常困难,而且有可能得到错误的结果,因此,对Web日志数据进行预处理是很有必要的。同时,考虑到传统关系数据库存储的约束和单

6、节点数据处理方式的局限性,本文使用Hadoop的分布式处理平台对Web日志数据进行存储和预处理操作,主要内容包括:(1)Web日志数据存储面对海量Web日志的急剧增长,传统存储技术面临建设成本高、运维复杂、扩展性有限等问题,而现在流行的云数据库具有动态可扩展、高伸缩性、高吞吐性能、低成本等优势,因此,本课题考虑将Web日志存储到Hadoop数据库HBase中,充分利用集群的分布式处理优势。(2)HBase负载均衡优化数据在HBase中的存储方式在很大程度上左右着整个集群的性能,直接影响着后续读取操作的效率。当MapReduce读取HBase中We

7、b日志数据时可能会造成访问“热点”问题,本文针对这种情况提出一种改进的负载均衡算法即HBase基于子表限制的负载均衡算法,在子表分配过程中除了考虑HRegionServer的负载情况外,还考虑到切割子表region的分配情况,从而实现最大程度上的集群负载均衡。(3)用MapReduce对Web日志进行预处理Web日志预处理操作关系到Web挖掘的质量,而单一节点的计算能力在处理大规模增长的Web日志上逐渐显露出弊端,MapReduce支持大规模集群操作,本文在分析Web日志预处理过程后,从HBase中读取数据,使用MapReduce计算模型处理We

8、b日志的预处理操作。通过对比实验,验证了优化后的HBase负载均衡算法在适当集群环境中可以有效解决负载访问失衡问题,以及验证了MapRe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。