欢迎来到天天文库
浏览记录
ID:6422028
大小:146.00 KB
页数:10页
时间:2018-01-13
《一种基于融合技术的异常数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于融合技术的异常数据挖掘方法摘要:本文在分析了常用的异常数据挖掘方法的优劣后提出了一种新的异常数据挖掘方法——基于融合技术的异常数据挖掘方法,该方法将两种异常数据挖掘方法融合在一起,以取长补短,分析数据对象的每个属性,对数据进行异常点数据挖掘,利用异常标记数组对数据集进行分离,将异常点数据从原始数据集中移动到异常数据集中,并进行输出。实验表明,基于融合技术的异常数据挖掘方法是可行的,并且是高效的。关键词:融合技术异常数据挖掘方法AkindofabnormaldataminingmethodbasedonfusiontechnologyWangXia
2、oyanSuqianRadio&TVUniversity(223800)Abstract:Basedontheanalysisofthemeritsofthecommonabnormaldataminingmethodisputforwardafteranewmethodofoutlierdatamining,outlierdataminingmethodbasedonfusiontechnology,thismethodwillbetwokindsofabnormaldataminingmethodfusesintogether,inordertoco
3、mplementeachother,throughtheanalysisofthevariousattributesofadataobject,thedataisabnormalpoints,datamininganddatasetstomakeuseofabnormaltagarraydataseparation,theanomalouspointdatafromtheoriginaldatasettomovetoabnormaldataset,andtheoutput.Experimentsshowthattheabnormaldataminingm
4、ethodbasedonfusiontechnologyisfeasible,andisefficient.Keywords:FusiontechnologyAbnormaldataminingmethods一、基于融合技术的异常数据挖掘方法的提出背景在通常的应用中,常用的异常数据挖掘方法有着不同的优势,同时也存在不足。基于统计的方法的优势是能根据数据分布函数确定地检测出异常点数据,它主要应用于科研计算,缺点是较难事先了解数据的分布特征。与基于统计的方法相比,基于距离的方法跟虽然不需要用户拥有相应领域的知识,并且其在概念上也较为直观,但是其参数的设置较难
5、,参数设置的不当,会给算法的结果带来严重的影响。与基于距离的异常点相比,基于密度的异常点更贴近异常定义,其通常能检测出基于距离异常方法所不能识别的一类异常数据即局部异常,其缺点是不能够挖掘出所以的异常,它挖掘的只是局部异常。目前的异常点数据挖掘技术,对于解决异常点挖掘有很大的帮助,但是还是很难有效地挖掘异常点数据所以,我们提出了一种基于融合技术的异常数据挖掘方法,用来解决异常点挖掘问题。此方法能解决异常点挖掘的一些实际问题,弥补了一些现有异常点算法的不足,能够提高检测的效果,而且能简化参数的设置,方便用户的使用,也能扩大相应的使用范围。10二、基于融合技
6、术的异常数据挖掘2.1概念和算法描述基于融合技术的异常数据挖掘方法的基本思想是:通过数据对象属性逐个判断数据点是否为异常点。利用所输入的预期异常点数目、距离函数F,计算数据属性距离值d,通过异常属性的定义挖掘并标记出数据对象的异常属性,通过数据对象属性的异常标记,分离并输出异常点数据。下面给出该算法的定义:引理1.数据集T1,N1为数据对象的数目,对象o为异常点数据,其定义为:以数据对象o为领域中心,以d为领域半径内所包含的数据对象最大个数为k1,k1<7、q∈T、F(o,q)<=d,F(o,q)是对象o和对象q的距离函数。引理2.数据集T1,N1为数据对象的数目,M1为对象的属性个数,对象o的i属性为异常属性,其定义为:以对象o的属性i为中心,为领域半径,该领域内所包含的数据对象最大个数k1,k1<8、性值的平均,除去数据对象o的i属性值,是半径参数,它是由算法自动计算的一个参数。
7、q∈T、F(o,q)<=d,F(o,q)是对象o和对象q的距离函数。引理2.数据集T1,N1为数据对象的数目,M1为对象的属性个数,对象o的i属性为异常属性,其定义为:以对象o的属性i为中心,为领域半径,该领域内所包含的数据对象最大个数k1,k1<8、性值的平均,除去数据对象o的i属性值,是半径参数,它是由算法自动计算的一个参数。
8、性值的平均,除去数据对象o的i属性值,是半径参数,它是由算法自动计算的一个参数。
此文档下载收益归作者所有