基于hadoop下利用hive进行网络日志存储和分析

基于hadoop下利用hive进行网络日志存储和分析

ID:21613644

大小:29.50 KB

页数:8页

时间:2018-10-23

基于hadoop下利用hive进行网络日志存储和分析_第1页
基于hadoop下利用hive进行网络日志存储和分析_第2页
基于hadoop下利用hive进行网络日志存储和分析_第3页
基于hadoop下利用hive进行网络日志存储和分析_第4页
基于hadoop下利用hive进行网络日志存储和分析_第5页
资源描述:

《基于hadoop下利用hive进行网络日志存储和分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop下利用Hive进行网络日志存储和分析  摘要随着网络应用的普及和网络的深入发展,网络上传输的数据量越来越大,在网络安全管理方面要求越来越严格,如何有效的存储、查询、分析海量的网络日志就成了网络安全管理方面的新挑战。云计算技术的完善和普及,为解决这类问题提供了新的方法,云计算机就是通过网络系统将多台计算机组成一个分布式系统,从而完成海量数据的存储和计算。Hadoop是一个用于构建云计算机平台的开源系统,为了存储和分析这些海量的数据,可以利用Hadoop分布系统下对网络日志的存储、查询、分析,通过该系统的

2、应用可以节约存储成本、提高查询效率,为网络的安全管理、网络优化提供数据支持。  【关键词】Hadoop大数据Hive  1引言  随着网络应用的深度普及,人们在学习、工作、生活越来越离不开网络,所以在网络的运行过程中,会产生海量的网络日志,如何通过海量的日志,来分析用用户上网行的特点,为校园网络的优化、网络安全、提供科学决策的依据,我们首先要解决的问题是如何存存储、查询、分析这些大数,如果用传统的单一节点的计算机能力来处理这些海量的数据已经不能满足需求。利用云计算技术,通过一定的算法,可以把这些大数据进进行清洗、存储

3、、分析,为校园网络安全运行提供数据支持,本文通过Hadoop系统,实现了基于Hive数据仓库的网络日志行为的存储和分析。  2主要相关技术  2.1hadoop系统  Hadoop是应用于大规模数据的开发和运行处理的软件平台,是Appach的一个用java语言实现开源软件框架,实现了在大量计算机组成的集群中对海量数据进行分布式计算,Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。  2.2Hive数据仓库  Hive是运行于Hadoo

4、p下的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive的本质是将SQL转换为MapReduce程序,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行。并按照该计划生成MapReduce任务后交给Hadoop集群处理,Hive的体系结构可以分为以下部分:  (1)用户接口,Hive主要有三个用户接口,分别为:命令接品(CLI)、Jdbc/Odbc接口、WEB接口。  (2)Hive将元数据存储在数据库中,如

5、mysql,Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。  (3)解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。  (4)Hive的数据存储在HDFS中,大部分的查询、计算由MapReduce完成,Hive将元数据存储在RDBMS中。  3存储和分析网络日志  3.1利用hive存储网络日志  3.1.1数据采集及格式  测试的数据来源于校园网络

6、用户上网行为记录的日志,该日的特点是实时记录了认证用户访问网络的行为,记录数据量非常大,每天将近有30G,每条记录包含如下信息:流水号、访问时间、访问的目标url或IP、登录账号、源MAC、源IP、目标端口、访问类型、访问目标IP、源端口,其格式为TXT文件,日志记录的信息可以分析校园网络的运行情况、用户上网行为特点及网络舆情的监控。  3.1.2数据的存储  用户在校园网络上每一个动作都会产生一条记录,所以经过长时间的网络运行,这些海量的数据查?存储就成为一个必须解决的问题,如果用传统的数据库如:MSsql、mys

7、ql、orc等,就显得力不从心.如果这些数据不加以分析利用,就失去了它的价值,根据Hive的特点,可以将网络日志存储在Hive数据仓库中,利用Hadoop分布式计算提高数据的运算速度,其存储的过程设计如图1所示。  整个流程的工作过程:  (1)原始记录获取,可以通过网关设备或认证服务器获取原始数据,在原始的数据中包含了许多干扰的数据,所以必须对数据进行处理。  (2)数据清洗,我们可以利简单的python脚本语言进行数据的清洗,提取对我们分析数据有用的信息,如用户账号、登时间、注销时间、在线时长、源IP地址、源MA

8、C地址、目标IP、访问类型等,经过清洗的数据大小只是原来的二分之一,把原始数据分别存为两个hive能够导入的TXT文件,这两个文件分别存有用户登陆校园网络的信息和用户访问网络行为记录。  (3)建立hive数据仓库,可以使用hive提供的CLI接口,编写相应的shell脚本进行批量的导入,也可以使用hive提供的API接口,通过编写程序进行导入

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。