资源描述:
《基于粗集理论的数据过滤方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于粗集理论的数据过滤方法的研究王波%!!高克宁%!!张斌%%!东北大学信息科学与工程学院"辽宁%%"""C#!!东北大学计算中心"辽宁%%"""C$9DE0A2’2FG1H-(E$I(E摘要为了从大型数据库中获取有用的知识"采用了@()*+J,-理论%&()*+J,-理论是一种研究不精确和不确定性知识的数学工具%利用粗糙集理论中属性核与不可分辨关系"提出了一种基于粗集的属性约简算法和消除冗余属性的数据过滤方法"并通过一个完整的实例验证了算法的有效性%关键词粗糙集数据挖掘过滤核约简文章编号%""!D5BB%D!!""#$%!D"%K#D
2、"!文献标识码L中图分类号=/B%%$%B!"#"$%&’()*)+,,%(*&’-(.*-*/01-"%0)23$#"4()5(62’7"-8*)23(9":;*(<")0)29":=’*)230)9%(’I+((2(M>?M(@E0-A(?’IA,?I,N9?*A?,,@A?*"O(@-+,0J-,@?;?AP,@JA-"’+,?Q0?*%%"""C$!(<(ER)-,@<,?-,@"O(@-+,0J-,@?;?AP,@JA-Q"’+,?Q0?*%%"""C$>?#-%*&-’>?(@S,@-((T-0A?)J,M)23?(12,S
3、*,M@(E20@*,S0-0T0J,J"0?0RR@(0I+-(@()*+J,-AJE0S,A?-+AJR0R,@$&()*+J,-AJ0E0-+,E0-AI02-((2(MR@(I,JJA?*)?R@,IAJ,?,JJ0?S)?I,@-0A?3?(12,S*,$U0J,S(?0--@AT)-,I(@,0?SA?VSAJI,@?AT2,@,20-A(?A?@()*+J,--+,(@Q"0?0--@AT)-,@,S)I-A(?0?SS0-0MA2-,@A?*02*(@A-+E-(S,2,-,@,S)?S0?-A?M(@E0V-A(?0@
4、,R@,J,?-,S"0?S0R@0I-AI02,W0ER2,AJ*AP,?-(P,@AMQA-J,MM,I-AP,?,JJ$<"@A(%4#’@()*+J,-"S0-0EA?A?*"MA2-,@A?*"@,S)I-A(?"I(@,!!!!数据库的建立是为了更有效地管理信息资源!然而"所存%传统的特征选择方法贮的数据往往含有大量冗余或者不完整的属性"严重降低了数%$%过滤方法据挖掘算法的时间效率和算法质量!如何删除冗余的属性"更过滤方法是分类之前采用预处理将有用的特征选择出来!好地提高挖掘效率"就是数据过滤所需要完成的工作!它的主要特点
5、’近来"粗糙集理论在特征选择算法中得到了广泛的应用!(%$最小的特征子集%缺点是有可能将例如>:号之类的特粗糙集理论&’#&()*+’,-$是波兰数学家.$/01203在%45!年征选出来作为唯一的特征集%提出的一种分析数据的数学理论6%7%该理论在分类的意义下定(!$选出了高维的特征’采用精度"一致性"信息论"距离"义了模糊性和不确定性的概念"是一种处理不确定&不相容数依赖性作为特征选择的评价标准%缺点是冗余属性与分类属性相对应"不利于冗余属性的走向%据和不精确问题的新型数学工具!粗糙集理论的特点是不需要%$!经典的特征选择方法步骤预
6、先给定某些特征的数量描述"而是直接从给定问题的描述集(%$产生过程(*,?,@0-A(?$’产生下一个候选子集"采用完合出发"通过不可分辨关系和不可分辨类确定给定问题的近似全搜索&启发式搜索或随机搜索策略%域"从而找出该问题的内在规律!约简在粗糙集中是一个很重(!$评价函数%包括距离&信息&依赖性&一致性和分类错误要的概念"它反映了一个决策表的本质信息!属性约简和数据率等%过滤可以去除与决策无关的冗余信息"在保持信息系统信息一(B$停止标准%致的前提下降低信息系统的复杂度!粗糙集中的约简也称极小(C$验证有效性过程%属性集"称由约简构造
7、的规则为极小规则6!8#7!在数据预处理的基础上"文章提出了一种可以有效处理非!粗糙集基本概念一致性数据的粗糙集特征选择算法!对于该算法得到的多个粗糙集理论的出发点是"根据目前已有的对给定问题的知&9:;<="利用信息论基础"找出属性之间关联性最小的识的论域进行划分"然后对划分后的每一个组成部分确定其对&9:;<=作为最终得到的结果!某一概念的支持程度’肯定支持"肯定不支持"可能支持"分别基金项目"国家科技部5XB重大科技攻关项目(编号’!""!LL!!BC%Y$作者简介"王波(%4K!D$"女"博士研究生"讲师"主要从事数据仓库与数据
8、挖掘等方面的研究%高克宁(%4XBD$"女"博士研究生"副教授"主要从事数据集成"搜索引擎等方面的研究%张斌(%4XCD$"男"教授"博士生导师"主要从事信息集成和Z,T工程的研究%计算机工程与应用!""#