数据挖掘技术--基于K最近邻距离的离群点挖掘实验

数据挖掘技术--基于K最近邻距离的离群点挖掘实验

ID:35560673

大小:630.00 KB

页数:9页

时间:2019-03-28

数据挖掘技术--基于K最近邻距离的离群点挖掘实验_第1页
数据挖掘技术--基于K最近邻距离的离群点挖掘实验_第2页
数据挖掘技术--基于K最近邻距离的离群点挖掘实验_第3页
数据挖掘技术--基于K最近邻距离的离群点挖掘实验_第4页
数据挖掘技术--基于K最近邻距离的离群点挖掘实验_第5页
资源描述:

《数据挖掘技术--基于K最近邻距离的离群点挖掘实验》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘技术学生姓名:学号:专业:计算机科学与技术班级:一、实验名称:基于K最近邻距离的离群点挖掘实验二、实验目的1、掌握基于K最近邻距离的离群点的数据挖掘算法2、通过查找数据中的离群点对数据进行异常分析三、实验数据Clementine数据质量的探究主要包括数据缺失问题、数据离群点和极端值两大方面。离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;本文研究的目的是拟建立适当的数学模型,评判出一组数据中的离群点,并对出现的离群点进行处理。本示例将离群点模型应用于开河数据提取,其中的目标字段为开河日

2、期天数。变量字Clementine段包括0221-0302三湖河口平均流量(X1),0109-0126平均流量(X2),0221-0302平均流量(X3),二月下旬平均水位(X4),最高气温转正日到0302累计最高正气温(X5),0221-0302气温和(X6)(为绝对温度),二月下旬平均气温(X7)(为绝对温度)最高气温转正天数(X8)(连续为正日期距离2月1日的天数,考虑到可能出现负数,因此+30),最大冰厚(X9)。此示例使用名为Stream1.str的流,该流引用名为开河数据.xls的数据文件。这些文件可以任何ClementineClient程序打开。此目录可

3、通过Windows“开始”菜单的Clementine程序组进行访问。四、实验原理基于邻近度的离群点检测是指一个对象是异常的,如果它远离大部分点。这种方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小(例如1),则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。对于正整数K,对象P到K的最近邻距离K-DISTANCE(

4、P)定义为:(1)除P外,至少有K个对象O满足distance(P,O)<=k-distance(P)(2)除P外,至少有K-1个对象O满足distance(P,O)

5、N(x,k)

6、)这里N(x,k)是不包括x的k-最近邻的集合,N(x,k)={y

7、distance(x,y)<=k-distance(x),y≠x}

8、N(x,k)

9、是该集合的大小。基于k最近邻的离群点检测算法(伪代码):输入:数据集D;

10、最近邻个数k输出:离群点对象列表1:forall对象xDO2:确定x的k-最近邻集合N(x,k)3:确定x的离群因子OF1(x,k)4:endfor5:对离群因子降序排列,确定离群因子大的若干对象6:return五、实验过程1、在文件夹中添加指向开河数据提取.xls的SPSS文件源节点,为流添加类型节点,如下图所示:2、参数设置,如下图所示:3、构建初步模型,如图所示:4、运行模型,添加table和plot节点,如图所示:5、运行结果,如图所示:(1)Table结果:(2)Plot结果,得到以下散点图:结果分析:Table表格中的$O-Anomaly显示的列就是数据中

11、的异常点,这些异常点反应了数据的的不合群,通过该表发现离群点,同时对数据进行修改,通过Plot结果,得到关于开河天数的散点图,其中T表示异常点,F表示合群点。六、优缺点:优点:该模型处理起来比较简单;缺点:(1)基于邻近度的方法需要O(m2)时间,大数据集不适用;(2)该方法对参数的选择也是敏感的;(3)不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。七、实验总结通过基于邻域半径的离群点的数据挖掘算法的分析模型的学习,我们初步了解了该算法的基本原理。并且在实验的过程中将原理应用到数据处理的实例中,通过不断的练习,可以顺利地解决建立模型过程

12、中遇到的问题,学会了通过查找数据中的离群点对数据进行异常分析。同时渐渐明白实验原理,逐步地提高了数据挖掘的理论和实践能力。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。