基于hadoop电子商务网站访问日志处理与的分析

基于hadoop电子商务网站访问日志处理与的分析

ID:32270749

大小:6.96 MB

页数:57页

时间:2019-02-02

基于hadoop电子商务网站访问日志处理与的分析_第1页
基于hadoop电子商务网站访问日志处理与的分析_第2页
基于hadoop电子商务网站访问日志处理与的分析_第3页
基于hadoop电子商务网站访问日志处理与的分析_第4页
基于hadoop电子商务网站访问日志处理与的分析_第5页
资源描述:

《基于hadoop电子商务网站访问日志处理与的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文中文摘要用户在访问Web站点的过程中,服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。日志的处理与分析通常分为四个阶段:数据采集,数据预处理,分析算法的实施与数据可视化。常见的在线网站分析工具都能在不同程度上提供

2、从日志采集、预处理与分析,直至提供包含各项关键绩效指标的可视化报告解决方案,然而随着电子商务网站不断发展,用户越来越多,业务越来越复杂,访问日志的分析也会变得异常复杂,同时以用户为中心的网站分析也变得更为重要,此时由电子商务网站自身组建分析团队,搭建自主的日志收集和处理平台的就变得非常必要。Hadoop是Apache基金会开发的一套分布式系统架构,以分布式文件系统HDFS和并行计算模型MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构。基于Hadoop对电子商务网站的访问日志进行预处理和分

3、析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。本文提出部署专用的日志服务器,由电子商务网站自身组件团队来完成日志处理与分析各个阶段的工作。采用JavaScrip标记方式采集日志,基于Hadoop搭建自主网站分析平台处理日志数据,并结合用户数据进行网站分析并以Web报表的形式展示分析结果。在日志处理的过程中,对其中包含的海量URL进行识别是非常重要的,本文提出并实现了一种高效可行URL识别的算法。访问路径匹配是分析用户行为重要一环,本文也给出了一种简易的匹配算法和实现。本文在最后

4、提出了一种数据密集型与计算密集型混合的集群协作模型,并将每个阶段的数据处理视为云服务,服务之间通过简单并且低耦合的接口调用完成调用,同时结合Duboo分布式计算服务框架完成了该集群协作模型的实现。关键词:电子商务,访问日志处理,Hadoop,集群协作模型武汉理工大学硕士学位论文AbstractAccesslogsrecordthedetailedvisitinformationofWebpages.ThenecessityforprocessingaccesslogsCallelicitalargenumbe

5、rofdecision-makingdata.IntermsofE—commercesites,dealingwithaccesslogshelpprovidingdecisionsupportforsitemanagers,guidingoperationandmaintainingcompetitiveedge.Thereaxefourstepsforprocessandanalysisofaccesslogs:datacollection,preprocessing,analysisandimpleme

6、ntationofalgorithmandvisualization.Commononlinewebanalyticstoolsmoreorlesscanprovidevisualreportsofthekeyperformanceindicatorsaftertheirintegratedsolutionapplied,butwiththecontinuousdevelopmentofE-commercewebsite,moreusersandmorecomplexbusinessstructurelead

7、tomorecomplexityofanalysisofaccesslogs.Atthesametime,User-orientedwebanalyticsbecomemoreimportant,buildingaplatformtocollectaccesslogsandthenprocessitbecomemuchnecessary.HadoopdevelopedbytheApacheSoftwareFoundationprovidesuseradistributedinfrastructureoftra

8、nsparentdetailsoflowlayehProcessandanalysisofaccesslogsofE—commercesitebasedonHadoopcantakesadvantageofparallelprocessingofclusterinordertoobtaindecision—makingdataintime.Thisthesisputsforwardanideaofd

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。