基于hadoop的web日志存储及预处理优化研究

ID：35056929

大小：2.45 MB

页数：70页

时间：2019-03-17

资源描述：

《基于hadoop的web日志存储及预处理优化研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、l&[il£fll:.~HebeiUniversityofEngineering~-THadoopU1Web13~If1ilfF~!&~:~*~fmlm;........:....--~m~fX~ijj=Jt1~Jt~~~f~-v~:it~tft~4~~11*Jilf~~~:1~L@)=Jlt'9:If¥~~*J~-~~=M~~~~ffl~~.~*A~~m~m~~.~~illlim~I~m~1~!¥1!1Jt*·~x.PE!£¥1:sJ351mI¥Jr*J:g7~.:tts:itx/G151:I1orJt1m-t-AM~-i*L,tS:'N..:

2、&!lXm:§]ttffgijf1t~*.iB::;r:'PI.-@!7J~~1~)Of;fr.~11.*-~~;t;t1tP.~w:m~tJS{J~111:~iiE-=r;rm1~fflctEr-J~~-~*~I¥J~~-~-~~~~~A~-~~~Ba~~~~T~-~m~**~7Wt.*A%~am~*~OO~~~~*~*Affiffi.~tl(~Of;Jt..I-/fl.:k._!l!f"BJtJ~:if¥1:•1:it~89~$M$)1-J*J?6~A1L¥~t'It@1$illi-Tt&~,**fflJJEp,miEPMB:fi'H~~11

3、iU-'f-~{*:ff,£~tl.f~t~r*J5fr:Jf~r~tloraJ:@:*~[fl]§Y&.:~~'mHlWGtJl:tt.J:i1;:3(~JtI¥J][Ep1tf;f!l~-T-Jt:t~•c~w~~ffi~xa•*m~m*~~~~)分类号：TP311密级：公开UDC：单位代码：10076工学硕士学位论文基于Hadoop的Web日志存储及预处理优化研究作者姓名：宋园园指导教师：黄伟建教授申请学位级别：工学硕士学科专业：计算机科学与技术所在单位：信息与电气工程学院授予学位单位：河北工程大学ADissertationSubmitte

4、dtoHebeiUniversityofEngineeringFortheAcademicDegreeofMasterofEngineeringStudyonWebLogStorageandPre-processingOptimizationbasedonHadoopCandidate：SongYuanyuanSupervisor：Prof.HuangWeijianAcademicDegreeAppliedfor：MasterofEngineeringSpecialty：ComputerScienceandTechnologyCollege/De

5、partment：SchoolofInformationandElectricalEngineeringHebeiUniversityofEngineeringMay,2016摘要互联网、移动互联网等技术的发展，使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为，对网站建设和提供精准服务具有重要的指导意义。但是，原始Web日志文件中数据的通常是不完整、冗余甚至错误的，直接使用这些数据进行日志分析非常困难，而且有可能得到错误的结果，因此，对Web日志数据进行预处理是很有必要的。同时，考虑到传统关系数据库存储的约束和单

6、节点数据处理方式的局限性，本文使用Hadoop的分布式处理平台对Web日志数据进行存储和预处理操作，主要内容包括：（1）Web日志数据存储面对海量Web日志的急剧增长，传统存储技术面临建设成本高、运维复杂、扩展性有限等问题，而现在流行的云数据库具有动态可扩展、高伸缩性、高吞吐性能、低成本等优势，因此，本课题考虑将Web日志存储到Hadoop数据库HBase中，充分利用集群的分布式处理优势。（2）HBase负载均衡优化数据在HBase中的存储方式在很大程度上左右着整个集群的性能，直接影响着后续读取操作的效率。当MapReduce读取HBase中We

7、b日志数据时可能会造成访问“热点”问题，本文针对这种情况提出一种改进的负载均衡算法即HBase基于子表限制的负载均衡算法，在子表分配过程中除了考虑HRegionServer的负载情况外，还考虑到切割子表region的分配情况，从而实现最大程度上的集群负载均衡。（3）用MapReduce对Web日志进行预处理Web日志预处理操作关系到Web挖掘的质量，而单一节点的计算能力在处理大规模增长的Web日志上逐渐显露出弊端，MapReduce支持大规模集群操作，本文在分析Web日志预处理过程后，从HBase中读取数据，使用MapReduce计算模型处理We

8、b日志的预处理操作。通过对比实验，验证了优化后的HBase负载均衡算法在适当集群环境中可以有效解决负载访问失衡问题，以及验证了MapRe

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 70



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop的web日志存储及预处理优化研究

基于hadoop的web日志存储及预处理优化研究

相关文章

相关标签