欢迎来到天天文库
浏览记录
ID:8322499
大小:483.50 KB
页数:31页
时间:2018-02-14
《基于sql的关系数据库关联规则数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一、数据挖掘的概念:数据挖掘,又称为数据采掘、数据开采等。一般认为数据挖掘是数据库中知识发现(KnowledgeDiscoveryinDatabase,简记KDD)的一个环节,是KDD中采用具体的数据挖掘算法从数据中自动高效地提取有用模式的最重要的步骤[19]。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术[15]。数据挖掘是
2、一门交叉性学科,有很多不同的术语名称。其中,最常用的是"知识发现"和"数据挖掘"。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献中)、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。数据挖掘可粗略地理解为三部曲:数据准备(datapreparation)、数据挖掘以及结果的解释评估(interpretationandevaluation)。 根据数据挖掘的任务分,有如下几种:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和
3、趋势发现等等。根据数据挖掘的对象分,有如下若干种数据源:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库、Web数据源。根据数据挖掘的方法分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决
4、策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。30数据库能有效地存储数据和查询数据,但不能有效地分析数据。数据挖掘不但分析数据,而且帮助用户得知原因,并预测未来。因此,数据挖掘被普遍认为是非常有效的数据分析工具,被信息产业界认为是数据库系统最重要的前沿技术之一,是信息产业最有前途的交叉学科。数据挖掘的过程:1
5、)了解应用领域,掌握相关先验知识以及应用的目标。2)收集并集成数据。3)对数据进行清洁和预处理。4)对数据进行归约和投影(发现有用特征,降维和变量约简)。5)确定适当的数据挖掘功能(总结、分类、回归、关联、聚类)。6)确定数据挖掘算法,并进行数据挖掘。7)对挖掘结果进行评估。8)对挖掘结果进行解释:分析结果。9)应用发现的知识。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分两类:1)描述式数据挖掘:刻划DB中数据的一般特性。2)预测式数据挖掘:在当前数据上进行推断,以进行预测。数据挖掘的方法
6、包括:1)统计分析方法:对关系表的各属性进行统计分析,找到它们之间存在的关系。2)决策树:决策树可用于分类。3)人工神经网络:人工神经网络用于分类、聚类、特征挖掘、预测和模式识别。4)遗传算法(GeneticAlgorithm):遗传算法用于分类、关系型规则挖掘等。5)粗糙集:粗糙集用于数据简化、数据意义评估、对象相似性或共性分析、因果关系及范式挖掘等。6)联机分析处理技术。30基于关系数据库的多维关联规则数据挖掘这一节主要介绍系统中使用的基于关系数据库的多维关联规则数据挖掘方面的技术。一、关联规则数据挖掘关联规
7、则挖掘是数据挖掘研究的一个重要分支,关联规则是数据挖掘的众多知识类型中最为典型的一种。目前关联规则挖掘问题已经引起了数据库、人工智能、统计学、信息检索、可视化及信息科学等诸多领域的广大学者和研究机构的高度重视,取得了许多研究成果。由于关联规则形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,因此从大型数据库中挖掘关联规则问题已成为数据挖掘中最成熟、最重要、最活跃的研究内容。关联规则挖掘最早是由Agrawal等人提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系
8、规则。这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货、库存以及货架设计等。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作涉及到关联规则的挖掘理论的探索、原有的算法的改进和新算法的设计、并行关联规则挖掘(ParallelAssociationRuleMining)以及数量关联规则挖掘(QuantitiveAssociationRuleMi
此文档下载收益归作者所有