资源描述:
《数据挖掘理论与技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘理论与技术研究论文导读:数据挖掘正是这样一种技术,它可以从大量的数据中抽取潜在的有用信息和模式,来帮助我们进行科学的决策。数据仓库(DataWarehouse,简称DW)是一项基于数据管理和运用的综合性技术和解决方案。DM是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发现模式,它主要基于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘出意料之外的或未知的关系、模式和联系,预测客户的行为,帮助企业决策者作岀正确的决策。关键词:数据挖掘,数据仓库,决策支持0.引言随着数据库技术的广泛应用,人们
2、越来越感到数据丰富而知识贫乏。面对庞大的数据资源,人们迫切需要能够自动处理数据资源并能将其转化为知识的自动工具。数据挖掘正是这样一种技术,它可以从大量的数据中抽取潜在的有用信息和模式,来帮助我们进行科学的决策。1.数据挖掘的定义数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD)从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘(DataMining,简称DM)比较公认的定义是W.J・Frawley、G.Piatetsky、Sh即iro等人提出的:就是从大型数据
3、库的数据中提取人们感兴趣的知识。是利用一些方法和模型,通过对数据进行分析,探索出这些数据中不明显、事先不知道和有使用潜力的信息。对于一个企业领导来说,如果不仅仅满足于统计报表,那么DM就是必要的。近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,DM能提供非常重要的,对决策者可能是完全崭新的决策信息。数据挖掘能提供的数据的模式有以下几类:(1)概念描述概念是对一个包含大量数据的数据集合总体情况的概括性描述。用户通过对数据库中细节数据的数据泛化来用高层次的抽象名称来描
4、述数据库所反映的定性概念。还可以通过对不同的数据库进行对比泛化,从而得岀不同数据库间相对的概念。(2)关联规则关联规则的挖掘就是从大量的数据中发现有价值的各项条目间存在的内在联系。从而利用这些关联规则进行决策。如从商业贸易记录中找出不同商品销售情况的关联,发现消费者的消费爱好,改变销售模式以迎合消费者,提咼销售额。(3)分类与预测分类指找出能够反映某一数据集合的特征的模型或函数,以便将未知的事例反映到某种离散的类别。但对于连续的数值预测则成为预测。(4)聚类分析聚类是一种特殊的分类,与分类分析方法不同,聚类分析是在预先不知道预划定类的
5、情况下,根据信息相似度原则进行信息集聚的一种方法。(5)异类分析对于数据库中那些不属于分类预测或聚类分析所获得的模型的数据对象就称为异类。例如:可以根据信用卡的使用地点、购买商品的类型来发现属于信用卡诈骗的购买行为(异类数据)。(1)演化分析数据对象的模型会随着时间的变化而改变,而对这一变化趋势的描述就称为数据演化分析。例如:利用演化分析方法可对股票的交易数据进行时序分析,获得股票市场的股票演化规律。2.数据挖掘的理论框架2.1基于数据仓库的数据挖掘技术数据仓库(DataWarehouse,简称DW)是一项基于数据管理和运用的综合性技
6、术和解决方案。DW作为一种新型的数据存储地,为DM提供了新的支持平台。DM是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发现模式,它主要基于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘岀意料之外的或未知的关系、模式和联系,预测客户的行为,帮助企业决策者作出正确的决策。如图1描述了数据仓库环境中的DM的体系结构。DM要发挥作用,首先必须在企业中实现DW,同时还必须具备实施DM的技术和工具,只有这样才能具体实施DMo图1数据仓库环境中的DM的体系结构DM的特点是处理的数据规模十分庞大;查询是决策者
7、提出的随机查询,需要靠DM技术寻找可能感兴趣的数据;在一些应用中,由于数据不断变化,因此要求DM能快速做出反应,以提高决策支持。DM即要发现潜在规则,还要管理和维护规则。DM中规则的发现主要基于大样本的统计规律,发现的规律不必适用于所有数据,当达到某一阈值时便可以认为有此规律。DM技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大S
8、imonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提