欢迎来到天天文库
浏览记录
ID:33488568
大小:232.93 KB
页数:5页
时间:2019-02-26
《基于粗糙集的生产环境数据挖掘系统方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第26卷第3期南方冶金学院学报Vo1.26,No.32005年6月JOURNALOFSOUTHERNINSTITUTEOFMETALLURGYJun.2005基于粗糙集的生产环境数据挖掘系统方法刘发升毛林春2(1.江西理工大学信息工程学院,江西赣州341∞0;2.江西理工大学应用科学学院,江西赣州341∞0)摘要:针对粗糙集确定性模型缺乏处理不确定信息的特点,Z.Pawlak等提出了粗糙集的概率模型.但该模型没有包括如何处理生产数据集纷繁复杂数据的方法.因此提出了应用粗糙集于生产环境数据挖掘的一种系统方法,并应用UCI的数据集对该方法进行了检验.实验结果体现了它的性能与有效性.
2、关键词:粗糙集概率模型;数据挖掘;生产环境数据集中图分类号:TP391文献标识码:A文章编号:1007-1229(2005)03-0016-051问题的提出粗糙集理论[IJ是一个代数模型,它不足以处理源于分类问题的不确定信息,其中基本的问题在于该模型基于确定性的方法而忽视了可用的概率信息.粗糙集的概率模型即是在这样的背景下提出的[2-4J.Z.Pawlak[2J等提出了粗糙集概率模型,有效地解决了利用概率信息进行不确定分类的问题.但是,该模型只是解决了获取的规则应该有不确定性的问题,而未能很好的解决获取的规则的有效性问题,即没有把一个规则是否有一定的支持度、是否来自于偶然的实例
3、等问题考虑进去.另外,该模型也忽略了通常为使用粗糙集进行数据挖掘而进行的从实际数据集到粗糙集数据表的转换过程中可能造成的数据信息的某些变化因此,为了采用粗糙集概率模型进行实际生产环境数据挖掘,就必须加人避免偶然规则的机制以及把反映原始数据信息的一些手段与该模型有机结合起来.本文的主要内容是①为把粗糙集应用于生产环境的数据挖掘对原始数据集需要做的各种预处理以及数据预处理后原始数据集信息的传递方法、避免偶然规则机制的引人;②基于上述方法提出应用粗糙集概率模型于数据挖掘的一种启发式策略;最后,用实验数据对该挖掘方法进行有效性检验.2数据集基于数据域原始底层数据级的信息归纳与预处理以及
4、避免偶然规则机制的引入在数据挖掘的应用中,应用领域的背景知识常常起到至关重要的作用.虽然可以在原始数据级上挖掘某些规则性,在更高的概念级别却常常可以挖掘到令人更感兴趣以及具有强支持度收稿日期:2004-11-08基金项目:江西省自然科学基金资助项目(0411046),江西省教育厅2003年科技攻关计划项目,江西理工大学博士研究基金项目作者简介:刘发升(1963-),男,副教授.第26卷第3期刘发升等:基于粗糙集的生产环境数据挖掘系统方法17的规则.因此,常常需要把数据库中原始的底层数据进行概念提升以期在更高的概念水平上进行有效的挖掘.同时,在原始底层的数据级上挖掘出的规则常常过
5、于繁杂,其中很多规则也不是用户所感兴趣的,使得有效利用这些规则变得十分困难.所以通过概念提升聚焦挖掘对象就变得十分必要.在挖掘过程中,背景知识如相关的概念层次的使用不仅可以改善挖掘的效率而且可以表示用户的挖掘喜好,因此,提高挖掘结果的兴趣度也是十分必要的.(1)概念分类层次树与数据离散化.概念分类层次树首先是一棵树,并且按照从普遍到特殊的序构成偏序.树根表示最一般的概念类,树叶表示最特殊的概念类即数据库中的原始级别的数据.树的每个节点表示一个概念类,节点的子节点表示对应类的子类.每个节点的所有子节点的集合构成该节点的一个等价分割,即每个类的子类之间互不相交、但其所有子类的并穷尽
6、该类覆盖的所有实例.概念分类层次树定义从一个概念集合到它们相对应的更高层概念之间的映射.对于概念属性(Ca怡goricalAtt由ute),有几种方法可以得到概念属性的分类层次树,包括①根据习惯分类的方法,如地名可以按"洲一国家一省一县"的层次进行分类:②根据领域专家提供的方法进行分类,比如皮肤病的分类;③采用其他的方法进行分类,比如机器学习的方法.数值属性的分类通常也有概念属性的几种方法,比如学生的成绩、人的年龄等等,与概念属性不同的是数值属性可以用比较通用的机器学习方法一一离散化方法进行分割阳.(2)数据域基于概念分类层次树的变换.设数据域D对应的概念分类层次树由递增的分割
7、序列凡P2,…,凡(Pi~三月,Vi町,i,j=l,2,""",n)构成,则由层次树的构造可知,树中的每个节点所包含的信息覆盖其子节点所包含的所有信息.如果把子节点对应的数据概念用其父节点对应的数据概念表示,则整个数据域的基数将相应的变小.这种对数据域的操作称为数据域基于概念分类层次树的变换.这种变换过程实际上是数据的一种压缩表示过程,是把底层概念数据用高层概念数据表示的一个概念提升的普遍化过程.变换的结果使得整个数据集的规模大大的缩小,使得数据集包含信息的粒度增大.为使数据集在各属性数据域
此文档下载收益归作者所有