徐凯文分布式我改的

徐凯文分布式我改的

ID:39616819

大小:399.86 KB

页数:6页

时间:2019-07-07

徐凯文分布式我改的_第1页
徐凯文分布式我改的_第2页
徐凯文分布式我改的_第3页
徐凯文分布式我改的_第4页
徐凯文分布式我改的_第5页
资源描述:

《徐凯文分布式我改的》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop集群的日志分析系统的设计与实现徐凯文(北华大学计算机科学技术学院网络12-2班26号)摘要:当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。关键词:分布式

2、计算;日志分析;Hadoop集群1概述日志文件是由系统或者应用程序产生的,用于记录系统和应用程序的操作事件如各种服务的启动、运行、关闭等信息。通过对日志文件的分析可以获得很多有价值的数据也能实现对系统安全、性能等方面的监控。Web日志[1]是由Web服务器产生的,随着社交网络的兴起,Web2.0时代的到来,网站的用户访问量的成级数增长,产生的日志文件大幅增多。传统的日志文件分析方式已经无法满足大数据量日志分析的需求。该文将以Web日志文件为例,利用Hadoop集群构建一个分布式计算平台为大数据日志文件的分析提供一个可行的解决方案,以提高了日志分析的效率,为进

3、一步的大数据分析的提供参考。现今日志文件分析方案是对大的日志文件先进行分割,然后对分割后的日志文件进行分析,分析方法采用文本分析及模式匹配等,最常见的是采用awk、python、perl。这种分析方式面对大数据的日志文件分析效率低下,耗时长。对于Web分析除了对Web日志本身进行分析外还可以主动收集访问信息,然后将信息存于关系型数据库中。这种方式最常见的是GoogleAnalytics、百度统计等。这种方式将会影响网站的性能,延长网站的加载时间。其次如果直接采用第三方的统计,还将会泄露网站的信息。当访问量高时,基于关系型数据库分析的方式将会受到数据库性能的制

4、约。2Hadoop集群系统概述日志文件记录了日常操作的原始数据,数据极具价值。随着时间的推移日志文件越来越大,分析难度也随着增大。本系统的设计就是为了解决文本日志的分析,系统针对Web日志。本系统基于搭建好的Hadoop分布式架构,将数据先存入到HDFS文件系统中,运行mapreduce程序对日志文件进行过滤分析,最后将数据输出到指定文件中。充分发挥了Hadoop分布式存储和分布式计算的优势。解决了海量数据日志文件的分析的难题,采用基于分布式结构的日志分析系统,提高了分析效率。目标日志是由Apache服务器产生的访问日志。Apache采用默认安装方式时,访问

5、日志access.log,存在于Apache安装目录的logs子目录下。访问日志access_log记录了所有对Web服务器的访问活动。下面是访问日志中一个典型的记录:222.192.32.17--[30/Jun/2011:18:52:25+0800]"GET/index.php?img=pngWrenchHTTP/1.1"200741这行内容由7项构成1)远程主机的IP地址。2)浏览者的标识(空白用一个“-”占位符替代)3)记录浏览者进行身份验证时提供的名字(空白用一个“-”占位符替代)。4)请求的时间。5)请求类型(METHODRESOURCEPROTO

6、COL)。6)状态代码(请求是否成功及原因)。7)发送给客户端的总字节数。3系统的设计与实现3.1系统的基本目标利用分布式的架构对日志文件进行分析,对日志文件进行过滤,按时间对日志数据进行分析。分析主要从页面pv、ip、请求状态、流量等方面出发。每月PV总量、PV量最多的一天、每月每个url的pv、每月独立IP、每天的流量、月总流量、每天的访问状态统计、每月的访问状态统计、每天的请求方式统计、每月的请求方式统计等等。3.2Hadoop部署图1介绍了Hadoop部署的基本结构,MapReduce模型中的Master的主控作业节点称为JobTracker,此框架

7、下面的所有作业(Job)都是由JobTracker进行管理的,它是唯一存在的。TaskTracker,负责每一个具体任务的执行。任务(Task)是具体执行的基本单元,每一个作业被拆分成很多的任务,被分配到合适任务节点上去执行,任务节点一边执行分配过来的任务,一边向JobTracker汇报执行任务的状态,以此来帮助JobTracker了解作业执行的整体情况,向空闲节点分配新的任务等操作。图1Hadoop部署的基本结构3.3日志数据的HDFS存储图2展示了HDFS的工作原理。首先client通过调用DistributedFileSystem的create方法来创

8、建文件。DistributedFileSystem通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。