决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用

决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用

ID:33181006

大小:3.07 MB

页数:62页

时间:2019-02-21

决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第1页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第2页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第3页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第4页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第5页
资源描述:

《决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要近十年来,数据库规模R益扩大,数据量大的可达数CB甚至TB级,这些数据中包含了大A有价值的信息。怎样才能发现其中潜在的知识,从而充分利用各种各样In信息为人类服务己显得越来越重要。由此需求产生了一门新兴的知识发现技术一数据挖掘。目前数据挖掘技术己经成为计算机界新的研究热点之一。在数据挖掘众多的研究分支中,分类和预测问题一直是一个十分引人注目的重要分支,其中决策树方法又是最为典型的方法。目前已有的许多决策树方法都是串行的内存驻留算法,它们不能充分发挥高性能计算的优点。随着数据库中数据量越来越大,建立高效的、适用于大型数据库的并行决策

2、树算法已成为数据挖掘中一个挑战性问题。木文在归纳总结一般决策树分类挖掘算法的基础上,对它的并行性和可扩展性进行了深产、研究,提出了一种基于纵向划分数据集的并行决策树分类算法,同时给出了它在集群计算机系统上的实现,文章最后还讨论了该算法在具体领域中的应用。具体而言,主要有以下几方面内容:首先,为了处理大规模数据集,对决策积{方法的可扩.展性展开讨论,提出了儿种m来提高算法可扩展性的方法;同时,为了提高算法的效率以进行实时的决策支持,对决策树分类方法的并行性进行研究,分折比较了决策树方法的各种并行策略,指出各种策略的优劣所在。其次,提也了

3、一种快速可扩展的决策树分类算法FSPC(AFastScalableParallelClassificationAlgorithm)。它采用纵向划分数据集策略,同时利用哈希表结构使得在测试属性的选择过程中同步划分数据集。实验结果表明:一方面,它可以大大提高算法的可伸缩性、另一方面,它不仅有利于减少进行1/0以及通信的开销a而且有利于提高算法的并行度,从而提高算法挖掘知识的效率。再次,阐述了并行数据挖掘原型系统PDM(aParallelDataMiningplatform)的结构和功能,实现了基于FSPC算法的并行决策树分类器,介绍了用F

4、SPC分类器进行并行数据挖掘的一般过程。另外,对于所产生的决策树实现了可视化。最后,介绍了FSPC分类器在网络入侵检测中的应用。该应用首先对网络中的历史行为数据进行采集及预处理,然后利用上述算法进行分类数据挖掘,得忠规则以后,预测网络中正在操作该系统的用户的动机以采取相应措施。本课a来源于上海市科学技术发展基金项县一“基于高性能计算的数据挖掘和知识发现”(OIJC14022)以及上海市教委“第四期重点学科”(205153)项目。关键词:数据挖掘并行计算可扩展性决策树分类器入侵检测AbstractThenearesttenyears,t

5、heabundanceofdata,coupledwiththeneedforpowerfuldataanalysistools,hasbeendescribedasa"datarichbutinformationpoor"situationAsaresult,anewtechnology-datamininghasattractedagreatdealofattention.Classificationisavitalformofdataanalysis,andmanyclassificationmodelshavebeenprop

6、osed,butdecisiontreesareespeciallyattractive.Atpresent,mostofthemaresequentialandmainmemoryalgorithms.Withtheextensionofdata,toestablishahigheficiencyandparalleldecisiontreealgorithmappliedtolargedatabaseshasbecomeagreatchallengeInthispaper,thescalabilityandparallelismo

7、fdecisiontreeismainlyresearched.Indetails,themainworkisdoneinthisthesisasfollows:Firstofall,forthesakeofdealingwithlargedatabases,thescalabilityofdecisiontreealgorithmisdiscussed,andthenseveralkindsofmethodtoimproveitareproposed.Ontheotherhand,thepaperprovidestheanalysi

8、softheparallelformulationsofdecisiontreeclassificationalgorithmsanddiscussestheadvantagesanddisadvantagesofeac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。