决策表中的知识发现研究

决策表中的知识发现研究

ID:36799803

大小:2.92 MB

页数:101页

时间:2019-05-15

决策表中的知识发现研究_第1页
决策表中的知识发现研究_第2页
决策表中的知识发现研究_第3页
决策表中的知识发现研究_第4页
决策表中的知识发现研究_第5页
资源描述:

《决策表中的知识发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学技术大学博士学位论文决策表中的知识发现研究中文摘要j知识发现是人工智能、机器学习、统计学、数据库和数据仓库等学科相互交叉所形成的一个活跃的且具有广阔应用前景的研究领域。作为记录过程化决策情形的一种数据库,决策表也是知识发现研究的一个对象。根据决策表自身所具备的特点,如何从中有效地提取有用的信息和发现新的知识,是摆在决策分析和技术研究者们面前的一个新的亟待解决的课题事本文对决策表中的知识发现研究从基本理论概念到实际应用分析,从理论模型到算法实现和系统应用,都进行了较为深入系统的讨论。我们介绍了目前知识发现的研究现状,讨论了决策表与知识发现之间的关系。知识发现研究中,一直存在着信

2、息的不确定性等问题,经典逻辑不足以解决这些不确定性问题。f人们提出的解决方法,包括统计方法、模糊集理论以及证据理论等,都有一些内在的缺碚或限定范围。粗糙集理论是一种研究不精确、不确定性知识的数学工具,它为知识发现提供了一种新的方法和工具。但粗糙集理论也存在着局限性:一是研究的信息系统的属性值必须是离散的,二是研究的信息系统的数据必须是完全的。数据丢失是导致数据不完全的一个重要原因,也是现实决策表中的一个常见特征。统计学和计算机科学两个领域的研究者已经提出了一些处理不完全数据的方法,在知识发现领域,已有研究者对能处理丢失数据的知识发现方法进行了研究,并开发了相应的系统。决策表中的条件属

3、性之间不是相互独立的,我们通过主成分分析方法来分析条件属性之间的相关性,并以此来估计丢失数据,提出了基于主成分分析方法的不完全数据补齐方法,并将该算法与均值替换法进行了比较。在进行决策表丢失数据补齐的时侯,还应该考虑决策表中信息的变化,特别是冲突情况的变化,我们要避免在进行数据补齐的过程中人为地引入冲突信息。一个决策表系统中的数据基本反映了它所涉及的问题的基本特征,尽管系统中可能存在不完全数据,决策表不完全数据的填补应该尽可能反映系统所反映的基本特征以及隐含的内在规律。基于这种思想,我们讨论了基于粗糙集理论的不完全数据补齐算法,该算法能够使完整化后的决策表系统产生的分类规则具有尽可能

4、高的支持度,产生的规则比较集中。目前国际上针对离散化问题也获得了一些有价值的研究成果,但这些方法通常会给原始决策表引入冲突。棒文分析了决策表的属性重要性问题,提出了根据不可辨另lj矩阵来计算条件属性重要性的新算法,基于属性重要性,提出了不改变决策表原有的不可分辨关系的离散化新算法,弥补了经典离散化方法的不足。,决策表的知识获取主要通过对决策表进行约简从而获得决策规则,约简又分为属性约简和值约简,值约简是属性约简的进一步简化。通过可辨别矩阵和逻辑运算,可以得到决策表的所有可能的属性约简结果,基于可辨别矩阵和逻辑运算的属性约简算法可以II中国科学技术大学博士学位论文决策表中的知识发现研究

5、得到决策表的所有可能的属性约简结果,但算法中的许多计算是重复的,计算量大。对此,我们提出一种改进方法,先从可辨别矩阵中寻找相对属性核,然后去除可辨别矩阵中包含核属性的元素,使得原矩阵大大的简化,降低了算法的复杂度,提高了效率。决策表中往往存在冲突,经典的属性约简算法只是针对完全相容决策表的,而并不适用于包含冲突的决策表。对此才我们提出了包含冲突样本的决策表中决策规则发现算法,我们讨论了含冲突决策表中的决策规则,引入可信度因子和支持度因子两个概念,并通过人为删除核属性来引入更多的冲突,使得获取的决策规则具有更广泛的适应性。(经典的塑蕉集堡j垒和方法已经成功地用于处理不精确、不确定的数据

6、或知识,但它限定所面对的数据库中所有属性值均是已知的,即数据是完全的。为了突破这一局限,我们将经典的不可辨别关系加以扩充,形成了容差关系、非对称相似关系和扩展的不可辨别关系,同时我们还对经典的可辨别矩阵进行了扩充。在不完全决策表中,经典的规则支持度和可信度通常不便计算,但我们可以运用扩充的不可辨别关系对其作出最大和最小估计。基于容差关系,我们提出未知相似算法来发现不完全决策表中的决策规则,这种算法得到的规则是集中的,并具有最高的规则支持度,但规则可信度不一定是最大;未知相异算法是基于扩展的不可辨别关系的,这种算法得到分布较广的决策规则,规则支持度最低,但规则可信度不一定是最小的。在上

7、述讨论研究之后,为了形象地说明决策表中的知识发现研究方法,1本文系统地介绍了应用前几章介绍的理论方法解决实际问题的知识获取实例——深圳市房屋租赁定价系统,并对系统从训练样本中产生的决策规则结果进行了解释。最后。我们讨论了知识发现的进一步研究方向以及本文工作的进一步研究方向。(本文的创新之处如下:将主成分分析方法运用于不完全决策表的丢失数据处理中来,提出了基于主成分分析方法的不完全数据补齐方法。丢失数据的填补应尽可能地反映原始决策表系统的基本特征,提出了基于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。