基于K-meansd的网络入侵检测系统的实验报告.docx

基于K-meansd的网络入侵检测系统的实验报告.docx

ID:57611824

大小:27.11 KB

页数:7页

时间:2020-08-29

基于K-meansd的网络入侵检测系统的实验报告.docx_第1页
基于K-meansd的网络入侵检测系统的实验报告.docx_第2页
基于K-meansd的网络入侵检测系统的实验报告.docx_第3页
基于K-meansd的网络入侵检测系统的实验报告.docx_第4页
基于K-meansd的网络入侵检测系统的实验报告.docx_第5页
资源描述:

《基于K-meansd的网络入侵检测系统的实验报告.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于K-meansd的网络入侵检测系统实验报告科目:网络安全组别:姓名:学号:二〇一五年十二月基于K-meansd的网络入侵检测系统实验报告一、实验目的使用K-Means算法对KDDCup1999数据集进行聚类分析,建立简单的入侵检测模型;再利用建立的模型对测试数据进行检测,测试聚类和检测精度。加强对网络安全中IDS的认识,提高网络安全防护意识。二、实验内容KDDCup99数据分两类,一种是训练数据集,用于提取数据特征,生成数据挖掘模型;一种是测试数据集,用于验证模型的效率和正确性。我们将数据集中的的10%训练集来训练

2、分类器,然后用corrected测试集测试分类器性能。实验主要包括四个方面:1.数据预处理从训练数据中选择适当的属性,作为聚类分析的参数;2.K-means算法编写3.聚类树模型构建4.通过测试数据测试得到混淆矩阵验证检测的准确度。三、实验环境操作系统:window1032位IDE:Pycharm4.0VS2010Python:2.7四、实验流程1.数据预处理及特征选择数据预处理和特征选择阶段使用了Python编写数据预处理:数据预处理阶段主要是将字符串转变为数值型,还有对39种攻击分成4类。(1)协议类型:1-icm

3、p;2-tcp;3-udp.(2)服务:domain-u1;ecr_i2;eco-i3;finger4;ftp-data5;ftp6; http7;hostnames8;imap4 9;login10;mtp11;netstat12;other13;private14;smtp15;systat16;telnet17;time18;uucp19;其他服务20;(3)标志:1-REJ;2-RSTO;3-RSTR;4-S0;5-S3;6-SF;7-SH;8-OTHER(4)数据类别:0-normal;1-probe;2-D

4、os;3-U2R;4-R2L特征选择:在总共41个特征中选择20个对聚类分析有用的特征,分别是:02协议类型03服务类型04状态标志05源到目的字节数06目的到源字节数11登录失败次数14是否获得root用户权限不要16root用户权限存取次数22是否是guest用户登录不要);232秒内连接相同主机数目242秒内连接相同端口数目27"REJ"错误的连接数比率29连接到相同端口数比率30连接到不同端口数比率33相同目的地相同端口连接数34相同目的地相同端口连接数比率35相同目的地不同端口连接数比率36相同目的地相同源端

5、口连接比率37不同主机连接相同端口比率39连接当前主机有S0错误的比率2.K-means算法编写K-means算法使用C++编写。流程如下:1.从n个数据对象任意选择k个对象作为初始聚类中心2.计算指定数据对象与聚类中心的欧几里德距离3.找到对离给定数据象最近的一个聚类4.重新计算每个聚类的中心5.直到聚类中心不再变化聚类结束。3.聚类树模型构建1.对数据集使用K-means算法进行分类,这里首先划分的5个类,即K的值为5,对每个聚类统计标签个数,选择个数最多的标签作为此类的标签。2.利用深度优先算法,对每个聚类层次分

6、析,计算其余标签的个数,若聚类层次小于3并且其余标签个数大于200或者层次大于3并且其余标签树大于150则继续对此类进行聚类,聚类的K值为该类中所有的标签类别数目。3.聚类终止条件:如果标签最大值大于200则不终止,若标签数量最大值在100到200之间并且聚合比率(其余标签数/最大标签树)大于0.33则不终止,若标签数量最大值在0到100之间并且聚合比率大于0.5则不终止。满足其他条件,便为叶子结点可以停止聚类。4.聚类到叶子结点后,终止聚类继续检查上一层聚类是否满足聚类结束条件,直到所有的聚类都符合条件,得到聚类树模

7、型。2.利用生成的聚类树模型进行测试1.首先计算本节点与数据的距离d1,判断是否有孩子节点,如果有,调用递归函数,获得孩子节点所在的子树中离数据距离最近的节点指针。直到遍历完所有的层次得到距离链,最后即最短。得到所分类的类标签,然后与该数据真实类标签比较,得到混淆矩阵。五、实验结果与分析总测试记录=311029正确标签记录=300006正确率=0.96456混淆矩阵如下:T/P0123407475036219050461622232171900221812020390032960044491010671600其中对角线

8、为预测准的值,对实验结果分析如下:在测试数据为310000条的情况下,达到了96%的正确率,第三类和第四类攻击方式没有分对一条,第三类因为数据太少,第四类可能是因为特征选取不当导致,还有待研究考量。实验中我调节了聚类精度和终止块大小,发现对结果影响不大,聚类都在96%左右,分析原因是模型本身问题,因为K-mean本身不能聚类任意形

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。