欢迎来到天天文库
浏览记录
ID:36764756
大小:240.88 KB
页数:6页
时间:2019-05-15
《数据挖掘与分类规则挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、重庆大学硕士学位论文2数据挖掘与分类规则挖掘2数据挖掘与分类规则挖掘2.1数据挖掘的产生随着信息化技术的广泛应用,以及人们认识和管理水平的提高,对客观世界的描述更加全面,也同时产生大量的存储数据(即:海量数据)。极速增长的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据录入、查询、统计等功能,虽然可以满足人们某些较低层次信息处理的需要,但人们可能更为需要的是从海量数据资源中挖掘出对于决策有指导意义的一般知识,这些知识是对
2、海量数据的高度概括和抽象。“数据爆炸,但知识贫乏”正是用来描述海量数据未被充分利用的现象。极速增长的海量数据被收集、存放在大量数据库中,如果没有强有力的工具帮助,理解它们已经远远超出人的能力。结果,数据库成了海量数据的“数据坟墓”,重要的决策常常不是基于数据库中信息丰富的数据,而是基于决策者的直觉。此外,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降低。为此,人们迫切需要能从海量数据中发现潜在有用信息和知识的工具,数据挖掘技术正是为满足这一需求而产生的。目前在国外已有许多领域成
3、功采用数据挖掘辅助决策,如:市场营销、零售业、金融、医疗保险、政府部门及科学研究等,已充分显示了这一信息技术的吸引力,也促进其应用和研究的进一步发展。2.2什么是数据挖掘数据挖掘是数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络和数据可视化等多学科技术相结合的产物。简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。一种比较公认的定义是:数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。先前未知的信息是指该信息是事先未曾预料到的,即数据挖掘是要发现
4、那些靠直觉不能发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的知识越是出乎意料,可能就越有价值。这正是数据挖掘与传统的数据分析的本质区别。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。通过数据挖掘,可以从数据库中提取有趣的知识、规律或高层信息,并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理和查询处理等。因此,数据挖掘被产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科之一。6重庆大学硕士学位论文2数据挖掘与分类规则挖掘2.3数据挖掘的模式
5、数据挖掘的任务是从数据中发现模式。所谓模式是指用语言L来表示的一个表达式E,它用于描述数据集F中数据的特性,它所覆盖的数据是F的一个子集S,并[3]且要求它比列举S中所有元素的表示方法简单。例如,“如果成绩在91-100之间,则成绩优秀”可称为一个模式,而“如果成绩为91、92、93、94、95、96、97、98、99或100,则成绩优秀”就不能称之为一个模式。模式按功能可以分为两大类:预测型模式和描述型模式。预测型模式是可以根据数据项的值精确确定某种结果的模式;描述型模式是对数据中存在的规则做
6、一种描述,或者根据数据的相[3]似性把数据分组。在实际应用中,常常根据模式的实际作用细分为以下几种。①分类模式。能够把数据集中的数据映射到某个给定的类上,从而可以用来预测数据对象的类标记。它可以用多种形式来表示,如:分类规则、判定树、数学公式或神经网络等。②回归模式。使用一系列现有数值来预测因变量的可能值。它与分类模式的最显著差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。③时间序列模式。根据数据随时间变化的趋势预测将来的值。其中要考虑时间的特殊性质,只有充分考虑时间因素,利用现有的
7、数据随时间变化的一系列的值,才能更好的预测将来的值。④聚类模式。识别一组数据对象的内在规则,可以把数据划分到不同组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些数据项来定义组。⑤关联模式。描述事物之间同时出现的规律的知识。更确切地说,是通过量化的数字描述A的出现对B的出现有多大影响。⑥序列模式。与关联分析类似,只是扩展为一段时间的项目集间的关系,常把序列模式看作由时间变量连接起来的关联。序列分析可分析长时期的相关纪录
8、,发现经常发生的模式。在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式使用最为普遍。分类模式、回归模式、时间序列模式被认为是监督式学习,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式则是非监督式学习,因为在模式建立前结果是未知的,模式的产生不受任何监督。7重庆大学硕士学位论文2数据挖掘与分类规则挖掘2.4分类规则挖掘方法概述
此文档下载收益归作者所有