计算机软件与理论专业毕业论文 [精品论文] 高维数据的聚类分析方法研究及其应用

计算机软件与理论专业毕业论文 [精品论文] 高维数据的聚类分析方法研究及其应用

ID:8549552

大小:13.80 KB

页数:38页

时间:2018-04-01

计算机软件与理论专业毕业论文  [精品论文]  高维数据的聚类分析方法研究及其应用_第1页
计算机软件与理论专业毕业论文  [精品论文]  高维数据的聚类分析方法研究及其应用_第2页
计算机软件与理论专业毕业论文  [精品论文]  高维数据的聚类分析方法研究及其应用_第3页
计算机软件与理论专业毕业论文  [精品论文]  高维数据的聚类分析方法研究及其应用_第4页
计算机软件与理论专业毕业论文  [精品论文]  高维数据的聚类分析方法研究及其应用_第5页
资源描述:

《计算机软件与理论专业毕业论文 [精品论文] 高维数据的聚类分析方法研究及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、计算机软件与理论专业毕业论文[精品论文]高维数据的聚类分析方法研究及其应用关键词:高维数据聚类分析信息安全数据挖掘遗传算法粗糙集入侵检测摘要:随着互联网的不断深入发展,网络上堆积的数据日益庞大和复杂。数据挖掘是一种将数据转换为有用信息的有效方法。聚类分析是数据挖掘的基本方法之一,其在许多领域都有着广泛的应用。然而,在如网络入侵检测和垃圾邮件甄别的实际应用中,数据普遍存在“高维性”。受“维度效应”的影响,在低维数据空间表现良好的聚类方法运用到高维空间上时,往往无法获得高质量的聚类结果。因而高维数据的聚类分析已经成为近年来研究的一个重点课题。在对高维数据进行聚类分析的研究中,维度约简方

2、法和聚类的鲁棒性是该领域中的两个关键问题。维度约简旨在将高维数据变换到低维空间,但在这一过程中,如何在保证一定聚类精度的前提下高效地对特征进行约简成为一个研究热点。另一方面,由于高维数据分布的内在稀疏性,常用的距离度量(如欧氏距离)和密度度量的有效性大大降低。在数据点之间普遍存在“低相似性”的情况下,如何有效地选择聚类初始中心点并排除孤立点的影响,增强高维聚类的鲁棒性是一个值得关注的问题。针对以上两个关键问题,本文重点研究了基于特征选择的维度约简方法以及高维聚类的初始化(即鲁棒性)方法,主要工作包括以下两个方面:(1)提出一种基于多层过滤的特征选择方法并应用于网络入侵检测。该方法利

3、用粗糙集的特性和遗传算法在解决NP问题上的优势,引入信息论角度定义的特征重要性,并将此度量作为启发式信息,对遗传算法的初始群体进行优化。将特征数目和特征的分类能力结合到目标评价函数中,在提高算法收敛速度的同时取得了更优化的结果。(2)在高维聚类的鲁棒性研究方面,提出新的基于公共近邻密度的中心点初始化算法,并将其应用到入侵检测和垃圾邮件甄别中。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点;反之,位于低密度区的点被视为孤立点,从而排除了噪声点对聚类性能的影响。该方法更有利于发现不同形状以及不同密度的簇类。实验结果表明,算法提高了聚类结果的稳定性和可靠性。正文内

4、容随着互联网的不断深入发展,网络上堆积的数据日益庞大和复杂。数据挖掘是一种将数据转换为有用信息的有效方法。聚类分析是数据挖掘的基本方法之一,其在许多领域都有着广泛的应用。然而,在如网络入侵检测和垃圾邮件甄别的实际应用中,数据普遍存在“高维性”。受“维度效应”的影响,在低维数据空间表现良好的聚类方法运用到高维空间上时,往往无法获得高质量的聚类结果。因而高维数据的聚类分析已经成为近年来研究的一个重点课题。在对高维数据进行聚类分析的研究中,维度约简方法和聚类的鲁棒性是该领域中的两个关键问题。维度约简旨在将高维数据变换到低维空间,但在这一过程中,如何在保证一定聚类精度的前提下高效地对特征进

5、行约简成为一个研究热点。另一方面,由于高维数据分布的内在稀疏性,常用的距离度量(如欧氏距离)和密度度量的有效性大大降低。在数据点之间普遍存在“低相似性”的情况下,如何有效地选择聚类初始中心点并排除孤立点的影响,增强高维聚类的鲁棒性是一个值得关注的问题。针对以上两个关键问题,本文重点研究了基于特征选择的维度约简方法以及高维聚类的初始化(即鲁棒性)方法,主要工作包括以下两个方面:(1)提出一种基于多层过滤的特征选择方法并应用于网络入侵检测。该方法利用粗糙集的特性和遗传算法在解决NP问题上的优势,引入信息论角度定义的特征重要性,并将此度量作为启发式信息,对遗传算法的初始群体进行优化。将特

6、征数目和特征的分类能力结合到目标评价函数中,在提高算法收敛速度的同时取得了更优化的结果。(2)在高维聚类的鲁棒性研究方面,提出新的基于公共近邻密度的中心点初始化算法,并将其应用到入侵检测和垃圾邮件甄别中。该算法利用点的局部密度来评估可能的高密度区域,以此来定位簇的初始中心点;反之,位于低密度区的点被视为孤立点,从而排除了噪声点对聚类性能的影响。该方法更有利于发现不同形状以及不同密度的簇类。实验结果表明,算法提高了聚类结果的稳定性和可靠性。随着互联网的不断深入发展,网络上堆积的数据日益庞大和复杂。数据挖掘是一种将数据转换为有用信息的有效方法。聚类分析是数据挖掘的基本方法之一,其在许多

7、领域都有着广泛的应用。然而,在如网络入侵检测和垃圾邮件甄别的实际应用中,数据普遍存在“高维性”。受“维度效应”的影响,在低维数据空间表现良好的聚类方法运用到高维空间上时,往往无法获得高质量的聚类结果。因而高维数据的聚类分析已经成为近年来研究的一个重点课题。在对高维数据进行聚类分析的研究中,维度约简方法和聚类的鲁棒性是该领域中的两个关键问题。维度约简旨在将高维数据变换到低维空间,但在这一过程中,如何在保证一定聚类精度的前提下高效地对特征进行约简成为一个研究热点。另一方面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。