欢迎来到天天文库
浏览记录
ID:31359912
大小:109.50 KB
页数:7页
时间:2019-01-09
《基于海量日志的入侵检测并行化算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于海量日志的入侵检测并行化算法研究 摘要:随着计算机技术和互联网的迅猛发展,对海量日志进行分析并进行入侵检测就成为重要的研究问题。针对这一现象,提出在Hadoop平台下利用并行化的数据挖掘算法对海量的日志信息进行分析从而进行入侵检测,然后利用搭建好的Hadoop集群环境对其进行验证,对不同大小的日志文件进行处理,并与单机环境下对比,证明在该平台下进行入侵检测的有效性和高效性,同时实验证明如果增大集群中的节点数目,执行效率也会相应的提高。 关键词:Hadoop;日志信息分析;入侵检测;并行化算法 中图分类号:TN915.08?34;TM417文献标识码:A文章编号:1004?3
2、73X(2016)19?0071?05 Abstract:WiththerapiddevelopmentofcomputertechnologyandInternet,howtoanalyzethemassivelogsandperformtheintrusiondetectionbecometheimportantresearchcontents.Tosolevethesedifficulties,theparalleldataminingalgorithmisusedtoanalyzethemassivelogsinformationonHadoopplatform,soast
3、operformtheintrusiondetection.TheestablishedHadoopclusterenvironmentisusedtoverifytheintrusiondetection,andprocessthelogfileswithdifferentsizes.Incomparisonwiththeintrusiondetectionresultverifiedinthestand?aloneenvironment,7theeffectivenessandefficiencyoftheintrusiondetectiononHadoopplatformwer
4、everified.Andtheexperimentresultsverifythatifthenodequantityintheclusterisincreased,theexecutionefficiencywillbeimprovedaccordingly. Keywords:Hadoop;loginformationanalysis;intrusiondetection;parallelalgorithm 0引言 随着信息技术的迅猛发展以及Web应用的快速普及,许多企业都拥有独立的Web服务器,然而其开放的特性也带来了不可忽视的安全问题。数量庞大的Web服务器以及层出不
5、穷的应用安全漏洞为黑客和蠕虫攻击提供了可乘之机[1]。 在Web日志中有应用是如何被访问的数据记录,对这些日志的分析不仅可以发现入侵的痕迹,而且可以通过对攻击方法的分析找出系统中存在的安全漏洞进而采取安全措施对该种类型的攻击进行防范。对应用进行攻击与进行合法的操作产生的日志信息相似度是非常高的,如果单纯依靠人工进行辨别,对工作人员的知识丰富程度和工作经验都有极高的要求[2]。同时,Web应用产生的日志信息数量是极其巨大的。因此,采用一定的入侵检测技术来保护应用系统,帮助其对抗各种类型的入侵攻击行为是十分重要的。 1基于Hadoop海量日志的入侵检测算法 1.1改进的并行化K?M
6、eans算法 K?均值(K?Means7Clustering)算法是最著名的划分聚类算法,因为它具有简洁和效率高的特性,是所有聚类算法中最频繁地被使用的。一般情况下,K?Means算法的应用会局限在数据量较小的数据集中,然而,本文主要针对的是海量的数据集,传统的K?Means算法并不能满足研究的要求。为了能够让其更好地对海量数据进行处理,需要研究在Hadoop平台下对K?Means算法进行并行化的改进。为了提高整体的效率,对Hadoop的Mahout项目中已经实现的并行化K?Means算法[3]进行了研究,并在其基础上进行了改进,提出了一种对Combiner中的计算方法进行修改的C
7、PK?Means(CombinedParallelK?Means)算法。主要的改进是为了提高计算效率,在Combiner函数中先对每个簇中的本地数据进行平均值的计算,然后再到Reduce阶段进行汇总,避免了Reduce阶段需要处理大量数据,负载过重的问题。 1.1.1CPK?Means算法的整体思路 本文提出的CPK?Means算法主要可以分为四个阶段:初始化阶段、Map阶段、Combine阶段和Reduce阶段。 (1)初始化阶段:将数据集分割成H
此文档下载收益归作者所有