欢迎来到天天文库
浏览记录
ID:5942336
大小:30.00 KB
页数:7页
时间:2017-12-29
《基于粗糙集与神经网络数据挖掘应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于粗糙集与神经网络数据挖掘应用 摘要:本论文就是根据电信行业需求,针对电信企业拥有大量详实而且丰富的数据,但是可用有效数据提取困难这一问题。首先利用粗糙集理论中的差别矩阵方法对电信客户数据进行属性约简,之后采用BP(BackPropagation)神经网络建立基于粗糙集和神经网络的数据挖掘模型,实现对电信业务系统的客户数据信息进行有效分析和高效提取,并通过matlab实现了仿真模拟。所建立的模型,减少神经网络的输入层个数、简化了运算次数、缩短了训练时间并提高数据预测的准确度。Abstract:Basedontheneedsofthetelecommuni
2、cationsindustry,fortelecommunicationscompanieswhichhavealargenumberofdetailedandrichdata,butitisdifficultfortheextractionofavailablevaliddata.First,thispapercarriedoutattributereductiontotelecommunicationscustomerdatausingthedifferencematrixmethodofroughsettheory,andthenestablished
3、dataminingmodelbasedonroughsetandneuralnetwork,usingBP(BackPropagation)neuralnetwork,toachieveeffectiveanalysisandefficientextractiontocustomerdata7informationoftelecommunicationservicessystem,andrealizesimulationbymatlab.Theestablishedmodelreducesthenumberoftheinputlayeroftheneura
4、lnetwork,andsimplifiesthenumberofoperations,shortensthetrainingtimeandimprovestheaccuracyofthedataforecast.关键词:粗糙集;BP神经网络;数据挖掘Keywords:roughsets;BPneuralnetwork;datamining中图分类号:TP39文献标识码:A文章编号:1006-4311(2013)07-0185-020引言数据挖掘(DataMining—DM)[1]就是从海量的、不完整的、杂乱无规律的、模棱两可的、随机的数据库中,提取隐含的、
5、人们无法通过表面现象观察到的、但又对人们提供决策支持具有重要意义的信息和知识的过程。通过数据挖掘定义可知,数据挖掘就是将存储在数据库或数据仓库中的对提供决策支持具有重要意义的信息和知识进行发现的过程。因此,数据挖掘又常被称为数据库中的知识发现(KDD)。1粗糙集理论定义17所谓的论域就是我们要研究的非空的数据组成的集合,即电信客户数据集一般被存储在数据库中,一般情况下用符号U表示。设X为U中的子集,则任何子集X?哿U,称为U中的一个概念或范畴,U中的任何概念族成为关于U的抽象知识,简称为知识[1]。对知识的划分公式如下:ξ=X■,X■,……X■;X■?奂U,
6、X■?奂?覫,X■∩X■=?覫对于i≠j;i,j=1,2,…,n;■X■=U。其中Xn代表各个属性。定义2若P满足关系式P?哿R,且P非空,称R为P上的不可区分关系,记为ind(P)[1,5],且有如下关系式:[x]■=■[x]■若K=(U,P)和K′=(U,Q)为两个知识库,且满足关系ind(P)=ind(Q),即U/P=U/Q,则称K和K′是等价的,记作K~K′。定义3知识约简中有两个基本概念[2,5]:约简(reduct)和核(core),两个是包含关系,满足关系式core?哿reduct。设R和r为两个等价关系,且存在关系式r∈R,如果ind(R)=
7、ind(R{r})7则称r为R中不必要的,r是冗余的、干扰属性,在属性约简过程中可以将r属性删除掉,而且不会影响制定决策;否则r为R中必须保留的属性,也正是我们做属性约简想要得到的条件属性。设Q?哿P,如果Q是独立的,且ind(Q)=ind(P),则称Q为P的一个约简;显然,P可以有多个约简。P的核记作core(P),P的核是P中所有必要关系的集合。2差别矩阵属性约简算法优化算法差别矩阵又称为区分矩阵(discernibilitymatrix),是粗糙集对数据进行属性约简的一种方法,这种方法有许多优点,但是最突出的优点就是它能容易地计算约简和核[3]。设知识
8、表达系统为S=(U,A,V,f),根据数据域U生成的
此文档下载收益归作者所有