欢迎来到天天文库
浏览记录
ID:34513640
大小:296.96 KB
页数:5页
时间:2019-03-07
《a7基于rough+sets带不确定因子的属性约简算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据2009年12月第23卷第4期阴山学刊YINSHANACADEMICJOURNALDec.2009V01.23No.4一种基于Rou曲Sets带不确定因子的属性约简算法赵连胜1,施纪华1,行飞2(1.包头师院信息科学与技术学院,内蒙古包头014030;2.内蒙古大学理工学院,内蒙古呼和浩特ol0021)摘要:粗糙集作为数据挖掘工具,主要通过分类数据得到预测型知识,但分类规则过于严格,使得挖掘结果可能会损失一些有价值的规则,本文引入带不确定性因子的决策系统uFDS,在该系统中根据统计结果和领域知识为每一对象赋以不确定度k和重要度p,并对传统等价类划分进行扩充,成为重要类和负类,在此基础
2、上提出了带不确定因子的属性约减算法。关键词:粗糙集;UFDS;重要类,属性约减中图分类号:0144文献标识码:A文章编号:1004一1869(2009)04一0014—04引言属性约简是数据挖掘中重要的研究内容之一,剔除冗余的属性,找出最小属性集,使得数据类的概率分布尽可能地接近原先全部属性时的分布;使获得的规则更加简洁实用,且在挖掘过程中降低算法的复杂度。该领域的研究中J.Han通过考察任务相关数据中每个属性的不同值对属性进行概化来实现属性约简‘“;z.Pawk山和A.skowmn及刘清通过粗糙集的分明矩阵方法实现属性的约简一】【纠;本文在基本粗糙集的基础上,提出了带不确定因子的决策系统U
3、FDs,并在此基础上给出了相应的属性约简算法,该算法的优点是考虑了不可分辨类中处于边界的非一致性规则的置信度,避免了现实世界数据中由于噪音的存在,而损失一些有价值的规则。l基本理论1.1决策系统定义1.1:5为决策系统’“,可表示成s={u、A、y、厂},其中u是所有对象的集合u=㈠,茗:⋯⋯%},A是属性集合,A可以进一步分解成条件属性集C和决策属性D,A=Cu
4、D,cnD=囝;y=uK,.P∈A,其中匕是P的值域乒u×A—y是一函数,对每一P∈A,气∈U有,(气,p)E屹。1.2不可分辨关系定义1.2:在s中定义二元关系IND称为不可分辨关系,对任意口cA,设^x,p)=p(髫)INDP
5、={(xi,石f)∈u×U:对Vp∈B,p(鼍)=P(名,)}141.1称薯,石,是s中在属性口下是不可分辨的,由于不可分辨关系满足自反性、对称性、传递性,所以不可分辨关系为一等价关系。1.3等价类定义1.3:在S中,口cA∥曰={El,晓⋯⋯眈}称为由等价关系IND口在U上划分的等价类,其中既={zn,x。⋯⋯茗。l,(x¨剐=,(茗d,B)=一认z。,曰)算口∈c,}。一个关系型数据库,其中列被标识成属性,行被标识成对象,若选定其中一个属性称为决策属性,其余属性称为条件属性,则也可认为关系型数据库是一决策系统。1.4下近似上近似定义1.4:对.jfcU,X的下近似IND。x一=}气∈uI
6、[戈i]8cX}1.2IND。x一是所有包含在工中的基本集(等价类)的并,对V鼍∈lN珧X一那么必定有置EX若x表示某一结论(知识)则其下近似表示完全支持该结论(知识)的对象所具有的条件。定义1.5:对xcU,x的上近似lND。x一定义为IND。x一={气∈(,f[毛]Bnx≠囝}1.3IND。X一是那些与Z相交不空的基本集的并,若X表示一结论(知识),其上近似表示可能支持该结论(知识)的对收稿日期:2008—07—20基金项目:内蒙古自治区高等学校科学研究基金项目(NJ09152)作者简介:赵连胜(1963一),男,硕士,副教授,研究方向:数据库。数据挖掘,人工智能万方数据象所有具有的条件
7、。定义1.6:X的边界区定义为BND。=IND8X一一INDBX—1.4如果气∈BND则不能确定茗;是否属于X,也即:属于边界区对象对某一结论(知识)的支持与否是不确定的。1.5核与属性的约简剔除冗余属性的过程称约简,但约简不是唯一的,由于属性组合的爆炸性,已证明找到最小约简是一个NP问题。在S中A=CuD口cC,D等价类记为c加,定义D的正区P0s。(D)为:POS。(D)=u{IND8x—fXE£,/D}1.5即对由D划分的全部等价类U/D,从由曰划分的等价类以倡中找出劬,D下近似的并。也即在条件属性曰下,寻找对决策属性值完全支持的等价类,所有这样的等价类的并构成D的正区。定义1.7:一
8、个属性P∈口相对于决策属性D被称为是冗余的。如果有POS8(D)=POS¨,)(D),否则称为P是必不可少的。定义1.8:所有C的约简的交集称为核,记为CORE(C、D、决策属性与条件属性有内在的联系,称为决策属性对条件属性的依赖度,设决策属性D,足度依赖于条件属性c,可用下式表示:X(C,D)=Card(POSc(D))/Card(U)1.6Card(X)表示集合X的元素个数,X(C、D)表示在S中的条件属
此文档下载收益归作者所有