实时分布式Web日志分析系统的设计与实现.pdf

实时分布式Web日志分析系统的设计与实现.pdf

ID:34528070

大小:7.02 MB

页数:99页

时间:2019-03-07

实时分布式Web日志分析系统的设计与实现.pdf_第1页
实时分布式Web日志分析系统的设计与实现.pdf_第2页
实时分布式Web日志分析系统的设计与实现.pdf_第3页
实时分布式Web日志分析系统的设计与实现.pdf_第4页
实时分布式Web日志分析系统的设计与实现.pdf_第5页
资源描述:

《实时分布式Web日志分析系统的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、类号密级注1UDC学位论文实时分布式Web日志分析系统的设计与实现(题名和副题名)周秋彤(作者姓名)指导教师唐友喜教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业通信与信息系统提交论文日期2015.04论文答辩日期2015.05.22学位授予单位和日期电子科技大学2015年6月29日答辩委员会主席刘皓评阅人注1:注明《国际十进分类法UDC》的类号。THEDESIGNANDIMPLEMENTATIONOFAREALTIMEANDDISTRIBUTEDWEBLOGANALYSISSYSTEMAMaster

2、ThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:CommunicationandInformationSystemAuthor:ZhouQiutongAdvisor:TangYouxiSchool:NationalKeyLaboratoryofScienceandTechnologyonCommunications独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注

3、和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文

4、在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要摘要Web日志是由Web服务器产生的数据记录,包含着网站运行的重要信息。通过日志分析,我们可以获取网站页面的访问量、分析用户行为、计算用户搜索的关键词排行等,从而实现企业的数据化运营。通常单日访问量在10万以上的中小型网站每天会产生1GB以上的日志文件,对于更大型的网站,可能每小时都会产生10GB以上的日志文件。当日志数据以每天10GB、100GB的速度增长的时候,使用单台主机已无法满足对数据的计算和存储性能需求。因此,采用分布式计算和存储技术来完成对Web日志的

5、分析处理已成为必然的发展趋势。目前较为流行的分布式计算框架是Hadoop,已被广泛应用于日志分析、数据挖掘等领域。Hadoop的核心是通过MapReduce并行计算模型和分布式存储系统(HDFS)实现对程序、内存、存储资源的管理。其本质是一种后计算流的过程,已足够应对海量数据计算,但在性能方面仍存在一定的缺陷:(1)日志元数据首先会存入到HDFS中,在计算时才重新读取,这其中必定引起一定的计算延迟,时效性得不到保证;(2)HDFS会保存大量的原始日志数据,考虑到冗余备份,会对机器的资源造成极大的浪费。(3)用户必须实现复

6、杂并且难以重用和维护的MapReduce程序,不具备良好的通用性。因此,针对Hadoop计算的不足,本文提出了一种全新的计算流方案,并设计和实现了一个可视化的Web日志分析系统,具体内容包括:第一,针对日志分析的应用场景,定义系统需求,将系统分为数据采集和存储、后台计算、前端展现三个部分。用户通过系统界面完成日志模型配置,然后系统根据用户规则生成计算任务,并将每分钟的数据统计结果以报表的形式返回给用户。第二,设计系统架构及功能模块,优化系统的计算和存储性能。本文基于MapReduce并行计算模型,设计了一种更能满足实时性

7、、周期性需求的计算流,降低了计算过程中的延时,提高了数据的齐全度和系统的故障恢复能力。并根据IABSTRACT数据结果的周期性,设计了一套优化的存储方案,降低了存储系统的次级索引负担,提高数据检索效率。第三,根据系统各模块处理流程,实现系统功能,包括日志模型管理、数据计算、数据存储、前端展现。其中描述了各模块间的交互数据格式和通信流程,并详细阐述了任务的调度策略和执行过程。第四,设计三个实验场景,验证本日志分析系统的功能及性能。首先通过对某电商网站访问量的统计,分析系统运行情况,然后对比分析了单台主机处理、并行处理、Ha

8、doop计算处理的耗时。测试结果表明分布式计算比单机运算的效率更高,本系统的计算模型比Hadoop的实时性更高。本系统通过分布式计算和存储方案解决了海量日志分析过程中的实时性和数据可靠性问题,并通过配置化的用户界面完成日志分析过程的规范化管理,有效的提高了日志分析的效率,在大数据时代具有一定的现实意义和应用价值。关键

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。