基于hadoop的电子商务网站访问日志处理与分析

基于hadoop的电子商务网站访问日志处理与分析

ID:32984605

大小:2.67 MB

页数:65页

时间:2019-02-18

基于hadoop的电子商务网站访问日志处理与分析_第1页
基于hadoop的电子商务网站访问日志处理与分析_第2页
基于hadoop的电子商务网站访问日志处理与分析_第3页
基于hadoop的电子商务网站访问日志处理与分析_第4页
基于hadoop的电子商务网站访问日志处理与分析_第5页
资源描述:

《基于hadoop的电子商务网站访问日志处理与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、由分类号——UDC密级学校代码!Q塑2劣j凄程歹大字学位论文题目基士望垒旦QQ巳鲍垫王直釜圈盐堕间旦:查丝垄鱼金盘英文ProcessandAnalysisofAccessLogof题目曼:£Q堡堡曼!盟§i!曼堡垒墨盟Q旦旦垒鱼QQ型研究生姓名鲎壑鏊指导教师姓名—三叠煎一职称——j塑L学位—』坠L单位名称盍墨墨墨盘鲎一一一邮编垒!QQ!Q副指导教师姓名单位名称申请学位级别职称学位邮编硕士论文提交El期一!Q!!生垒旦论文答辩日期211至生至旦学位授予单位蹙垫堡墨盘鲎学位授予日期麴蝗墨日亟旦答辩委员会主席丝监

2、评阅人缝翌丛趣2012年4月武汉理工大学硕士学位论文独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名.-.近动亟日期:垄12:兰:丝学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门

3、或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):涵械导师(签名):歪锄期≯厂2.J:2扩◆武汉理工大学硕士学位论文中文摘要用户在访问Web站点的过程中,服务器会记录这些访问形成访问日志。对访问日志进行必要的处理可以获取大量的决策数据

4、。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。日志的处理与分析通常分为四个阶段:数据采集,数据预处理,分析算法的实施与数据可视化。常见的在线网站分析工具都能在不同程度上提供从日志采集、预处理与分析,直至提供包含各项关键绩效指标的可视化报告解决方案,然而随着电子商务网站不断发展,用户越来越多,业务越来越复杂,访问

5、日志的分析也会变得异常复杂,同时以用户为中心的网站分析也变得更为重要,此时由电子商务网站自身组建分析团队,搭建自主的日志收集和处理平台的就变得非常必要。Hadoop是Apache基金会开发的一套分布式系统架构,以分布式文件系统HDFS和并行计算模型MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构。基于Hadoop对电子商务网站的访问日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。本文提出部署专用的日志服务器,由电子商务网站自身组件团队来完

6、成日志处理与分析各个阶段的工作。采用JavaScrip标记方式采集日志,基于Hadoop搭建自主网站分析平台处理日志数据,并结合用户数据进行网站分析并以Web报表的形式展示分析结果。在日志处理的过程中,对其中包含的海量URL进行识别是非常重要的,本文提出并实现了一种高效可行URL识别的算法。访问路径匹配是分析用户行为重要一环,本文也给出了一种简易的匹配算法和实现。本文在最后提出了一种数据密集型与计算密集型混合的集群协作模型,并将每个阶段的数据处理视为云服务,服务之间通过简单并且低耦合的接口调用完成调用,同时

7、结合Duboo分布式计算服务框架完成了该集群协作模型的实现。关键词:电子商务,访问日志处理,Hadoop,集群协作模型武汉理工大学硕士学位论文AbstractAccesslogsrecordthedetailedvisitinformationofWebpages.Thenecessityforprocessingaccesslogscanelicitalargenumberofdecision-makingdata.IntermsofE—commercesites,dealingwithaccesslog

8、shelpprovidingdecisionsupportforsitemanagers,guidingoperationandmaintainingcompetitiveedge.Therealefourstepsforprocessandanalysisofaccesslogs:datacollection,preprocessing,analysisandimplementationofalgorithma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。