基于粗糙集理论的属性约简算法.研究

基于粗糙集理论的属性约简算法.研究

ID:31982758

大小:2.10 MB

页数:49页

时间:2019-01-30

基于粗糙集理论的属性约简算法.研究_第1页
基于粗糙集理论的属性约简算法.研究_第2页
基于粗糙集理论的属性约简算法.研究_第3页
基于粗糙集理论的属性约简算法.研究_第4页
基于粗糙集理论的属性约简算法.研究_第5页
资源描述:

《基于粗糙集理论的属性约简算法.研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一章绪论1.1研究的背景和意义近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,随着计算机、网络和通讯等信息技术的高速发展,信息处理在整个社会规模上迅速产业化,在技术上表现为整个社会对大规模数据操作的产业化。这使得人们所积累的数据越来越多,并且数据与信息系统中的不确定性更加显著。海量杂乱的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测

2、未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏"的现象。同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一难题№一1。数据挖掘是最近几年来随着数据库和人工智能发展起来的一门新兴的技术。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息。它的出现为自动和智能地把海量数据转化为有用的知识提供了有力的手段。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样

3、。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据甚至是非结构化的异构数据,如分布在网络上的Web数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术是--l']广义的交叉学科。数据预处理是数据挖掘中的重要一环n叭。实际系统中的数据一般都具有不完全性、冗余性和模糊性,很少能直接满足数据

4、挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。因此要使挖掘内核更有效地挖掘出知识,就必须为它提供干净、准确、简洁的数据。属性约简是数据规约的一种形式,这个过程是从原属性集合中删除不相关和冗余的属性选出属性子集,以便根据确定的准则使属性空间得到最优的约简田1。青岛大学硕士学位论文图1.1属性约简步骤属性约简通常作为数据挖掘的一个预处理步骤n们,在数据选择和为数据挖掘作准备的过程中起着重要的作用。而所谓的属性约简,就是在保持知识库分

5、类能力不变的条件下,删除其中不相关或不重要的属性。通过属性约简,去掉不必要的属性,可以使知识表示简化,又不丢失基本信息,如果能将冗余属性删除,则可以减小系统规模,节约成本,并能提高系统潜在知识的清晰度n引。近年来,在许多应用领域,如基因项目、文本分类、图像恢复和客户关系管理等n羽,数据在实例的数量和属性的数量两方面都有了巨大的增长。如此海量的数据给许多机器学习算法在可伸缩性和学习性能方面带来了严重的问题。例如,高维数据(即包含数以百计或数以千计属性的数据集)可能包含大量的不相关和冗余的信息,其中大部分属性与挖掘任

6、务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别是当数据的行为不清楚的时候更是如此。遗漏相关属性或留下不相关属性都是有害的,会导致所用的挖掘算法无所适从。这可能导致发现的模式质量很差。此外,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程。因此,在面对如此高维数据的今天,对数据挖掘任务来说,属性选择成为一种必然的选择。可是,在大小和维度两方面呈现出的巨大的增长趋势都给属性选择算法造成了严峻的挑战。粗糙集理论是一种刻画不完整性和不确定性的数学工具n吲,其主要思想就是在保持

7、分类能力不变的前提下,通过知识约简,导出问题的分类规则。粗糙集理论能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。其特点是算法简单,无需提供数据之外的任何先验信息,可直接从给定问题的描述集合出发,通过不可分辨关系和等价类确定2第一章绪论给定问题的近似域,从而找出该问题的规律。粗糙集理论的应用和其算法的研究,是近年来知识发现、数据挖掘领域的一个热门话题。在粗糙集研究领域人们己经开发了许多粗糙集模型,粗糙集理论的一个核心问题就是约简,由于大型数据库中常常包含许多对发现规

8、则来讲是冗余的、不必要的属性,研究人员发现,如果能将冗余属性删除,将大大提高系统潜在知识的清晰度,降低知识发现的时间复杂性,提高发现效率。因此,将粗糙集理论应用于属性约简具有广泛的应用前景和~定的商业价值。1.2国内外研究概况基于粗糙集理论的属性约简是一个非常有研究价值,也是一个非常有挑战性的研究课题n3。近些年来,国内计算机领域的一些专家提出了“数据浓缩"陇1的概念。数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。