欢迎来到天天文库
浏览记录
ID:34822487
大小:1.67 MB
页数:53页
时间:2019-03-11
《试析基于数据元标准与粗糙集的数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西南农业大学硕士学位论文基于数据元标准与粗糙集的数据挖掘技术研究姓名:郑涛申请学位级别:硕士专业:农业机械化工程指导教师:左源瑞20050501两南农业火学倾I:学位论义摘要随着信息化建设的不断发展,各行各业都有大量的数据被存储在各种数据仓库中,而且数据量每天都在不断的以惊人的速度增加,数据种类繁多,如何有效的利用这些信息,为本行业提供有I【};
2、的决策信息,已经变得越来越关键。传统的方法己经不能有效的处理这些数据,数据挖掘技术应运而生,并显示出强大的生命力。数据挖掘是--fq)“义的交叉学科,可以通过综合运用统计学、粗糙集、模糊集、
3、机器学习等多种技术从各类数据库中挖掘出先前未知的、平凡的、具有潜在应用价值的信息或模式,从而揭示出蕴涵在这些数据背厉的内在联系和本质规律,指导人们有效地利用数据库中的数据并为正确决策提供依据。目前,数据挖掘研究主要集中在机器学习、统计、模式识别、人工智能、知识获取、数据可视化、智能数据分析、神经网络等领域,研究重点开始注重多种发现策略和技术的集成以及多种学科之间的相互渗透。本文研究主要围绕基于数据元标准与粗糙集的数据挖掘技术,在数据元标准、粗糙集相关理论技术研究及对数据挖掘的本质和流程进行剖析的基础上,建立数据元标准、粗糙集与数据挖掘
4、的有机联系。第一、对数据元标准的相关理论进行研究讨论。数据元标准的建立是实现数据标准化过程中的关键部分.研究的对象是数据元和元数据,其目标是建立标准化的信息表达方法和存储交换格式,以实现信息的正确表达及无误差传播,实现信息在意义上、标准上和内容上的统一,为信息的共享和集成分析提供技术支撑,同时在数据元标准的基础上进行数据库的数据挖掘.为实际生产、过程控制、信息管理等提供预测未来趋势及行为的基于知识的决策。数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元,是数据库中表达实体及其属性的标识符,在特定的语义环境中,数据元被认
5、为是不可再分的最小数据单元。元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集.它通过一系列元数据属性对数据元结构化信息进行描述并存储在数据元注册系统(数据字典)中。XML(ExtensibleMarkupLanguage,可扩展标记语言)定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。XML文档的属性结构和数据元的逻辑组成结构吻合,可以生动的描述数据元的元数据组成关系。因此,本文选择XML文档作为数据元的物理存储方式,在基于XML数据元存储的基础上进行信息抽取技术的
6、研究,其中研究的重点和雉点是数据元元数据设计;数据元基T-XMLSchemaT7储交换格式的映射模型、映射规则及其辅助生成算法。第二、深入分析研究粗糙集基础理论知识。粗糙集(RoughSets,RS)是1982年波兰华沙大学的数学家PawlakZ教授提出的,它是一种处理模糊和不精确知识的数学工具,具有很强的定西南农业大学硕七学位论文摘要性分析能力,而且无需提供除问题所需处理的数据集合之外的任何先验信息,在处理不确定、冗余、噪声、动态数据等方面有着较强的应用优势,已成为数据挖掘领域知识获取的重要途径。这一部分首先讨论了粗糙集的基本概念,
7、包括知识与不可分辨关系、上近似集与F近似集、知识的约简和核、知识的依赖度以及属性重要性等,在此基础上研究了知识表达系统、决策表以及决策规则的产生。研究的重点和难点是决策表的离散化及决策表约简。犰策表约简是粗糙集理论的核心内容之一.包括属性约简和属性值约简。通常情况下,在数据随机采集得到的近似空间中冗余属性和属性值是普遍存在的,一方面是资源的浪费,同时也影响产生的决策规则的n:确性和简洁性。因此决策表约简是十分重要的。本文重点研究了决策表约简算法,对常见的属性约简算法如差别矩阵方法、基于互信息的MIBARK算法等进行了分析对比,在此基础
8、上提出了基于属性重要性和信息熵的属性约简算法。该算法的思想就是先选择尽可能多的属性进入候选属性集,从而保证了对条件属性的约简不失真,最大限度保留了原决策表中的客观信息;而后判断条件属性之间的互信息,如果互信息很大的话.说明两者之间存在较强的依赖关系.应该在不影响分类质量的前提下将冗余属性删除,保证了约简结果的简洁性。第三、重点研究了基于数据元标准与粗糙集的数据挖掘技术。在对数据元标准、租糙集相关理论技术深入分析的基础上,提出了基于数据元标准与粗糙集的数据挖掘框架,并将数据元标准、粗糙集研究内容应用到数据挖掘框架中。该数据挖掘框架主要包
9、括两个阶段的工作:一、基于数据元标准数据预处理是将不同领域、不同主题的数据源按照统一的数据元表示规范表示,形成具有统一数据标准的数据库资源,进而通过基于XMLSchema存储交换格式形成一个数据共享的基本数据环境,然后根
此文档下载收益归作者所有