欢迎来到天天文库
浏览记录
ID:26811066
大小:51.50 KB
页数:5页
时间:2018-11-29
《基于大数据技术的日志统计与分析系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于大数据技术的日志统计与分析系统研究摘要:随着大数据时代的来临,网络数据呈现爆炸式增长,IDC数据表明,全球企业数据正以62%的速度逐年增长,大量数据当中隐藏着巨大的商业价值,引起了企业的广泛关注。然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难。本文旨在实现基于大数据技术的日志统计分析系统,解决了现有的工具逐渐无法有效的处理大量数据的问题。本文在对此系统进行需求分析的基础上,设计了以多个分布式集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志数据转码、日志传输、自动识别新文件的产生、日志存储、数据查询的功能。日志数
2、据转码对于GBK格式编码的日志进行格式转换;日志传输提供数据从不同终端到储存系统的数据收集、聚合和移动,以便模拟生产环境中数据实时产生的过程;自动识别新文件的产生,不同模块之间完成通信加载数据功能。本文综合使用了大数据生态圈的各种开源技术,包括Hadoop、FlumeNG、Kfaka、Sqoop、Hive、MySQL。从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用大数据技术进行日志统计分析的典型流程。本文使用开发语言Java和shell脚本语言,开发工具为IntelliJIDEA,VIM。在多台CentOS6.5机器之上搭建集群
3、,进行分布式存储和计算。用户通过统计分析系统进行日志同步、传输、任务提交和调度、结果查询等操作。中国8/vie 关键词:大数据;网络数据;日志统计分析;流程自动化 中图分类号:TP311文献标志码:A:1009-3044(2016)34-0009-03 1概述 搜索引擎的日志文件是由使用者的搜索行为产生的,是对用户在终端行为的一种记录。通过对日志文件的分析可以获得很多有价值的数据,可以对不同用户的个性进行更加全面的分析,实现更加个性化的推荐方案。随着时间的推移,网站的用户访问量快速增长,搜索引擎产生的日志数据快速增长。传统的日志分析方式已经无法满足大数
4、据量日志分析的需求,使用大数据技术可以为日志分析设计一整套自动化流程包括从数据采集,传输,存储,计算和查询,这种方式可以使得数据的处理过程更加高效。 2集群概述 本系统为了模拟真实线上搜索日志产生的情况,使用脚本语言模拟连续生成的日志数据,通过Flume集群进行实时的采集。Flume采集到数据之后,使用Kafka集群对数据进行消费,将数据先存入到HDFS文件系统中。搭建Hive集群使用HQL语句对数据进行过滤分析。使用Sqoop工具把Hive中的数据导入到MySQL提供实时查询。 目标日志是由搜狗实验室提供的用户查询日志。下面是访问日志中一条典型记录:
5、 00:00:010014362172758659586[明星合成]6421link.44box. �行内容由6项构成:1)访问时间。2)用户ID。3)查询词。4)该URL在返回结果中的排名。5)用户点击的顺序号。6)用户点击的URL。其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 3系统的设计与实现 3.1系统的基本目标 利用分布式的架构对模拟生产环境下实时产生的用户查询日志进行采集,传输和存储,按查询过滤条件对日志数据进行分析。 3.2集群部署 3.2.1Hado
6、op部署 图1介绍了Hadoop集群部署的架构,包含一个主控节点namenode和两个从节点datanode。namenode主要职责是跟踪文件如何被分割成文件块、文件块又被哪些节点存储、以及分布式文件系统的整体运行状态是否正常等工作。ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序。SecondaryNamenode定时查询namenode节点中集群启动时对文件系统的改动序列,并保持同步;然后将得到的信息更新到namenode节点文件系
7、统快照文件中。Nodemanager管理Hadoop集群中单个计算节点,包括与ResourceManager保持通信,监督任务的生命周期管理,监控每个任务的资源使用,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。 3.2.2Flume部署 Flume本身不限制Agent中Source、Channel和Sink的数量。因此FlumeSource可以接收事件,并可以通过配置将事件复制到多个目的地。如图2所示,可以将事件发送到多个Kafka终端,进行分布式的处理过程。 3.2.3Kafka部署 图3介绍了Kafka集群部署的基本架构,Produce
8、r称为消息的发送者,而消息接收者称为C
此文档下载收益归作者所有