欢迎来到天天文库
浏览记录
ID:44679867
大小:193.95 KB
页数:6页
时间:2019-10-24
《逐步判别分析算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一章数据挖掘与其它数据处理方法1.1数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是耍发现那些不能靠直觉发现的信息或知识,其至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值,在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。1.2数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库屮
2、拿到数据挖掘库或数据集市中(见图8.l)o从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很口J能在做数据挖掘吋就没必要在清理一次了,而且所冇的数据不一致的问题都已经被解决了。数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如呆数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据挖掘库根据挖掘的任务可以分为:分类和预测模型发现、数据总结和聚类、关联规则发现、序列模式发现、相似模式发现和混沌模式发现等。根据挖掘对象來分,数据挖掘方法有面向关
3、系数据库、空间数据库、时态数据库、文木数据源、多媒体数据库、而向对象数据库、异质数据库以及WEB信息等。根据挖掘方法来分,数据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。其屮机器学习可细分为归纳学习方法、基于范例学习、遗传算法等;统计方法可细分为回归分析、判别分析、聚类分析、探索性分析等;神经网络方法可细分为前向神经网络、口组织神经网络等;数据库方法主耍是多维数据分析或联机分析方法,另外还冇而向屈性的归纳方法。数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。数据挖掘和知识发现使数据处理技术
4、进入了一个更高级的阶段。它不仅能对过去的数据进行简单的查询,并且能够找出过去数据Z间的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发展趋势等。数据挖掘技术将人们认识和利用数据的三个阶段数据、信息、和知识有机的结合在一起。从数据、信息和知识三个层面上看,数据是最原始的未经组织和处理的信息源。信息或称冇效信息是指对人们在某些方面冇价值的东西。知识是一种现实世界信息的抽象和浓缩,是一种概念、规则、模式和规律等。数据挖掘技术通过对原始数据进行微观、屮观乃至宏观的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,转变成可以
5、用来指导人们某些高级商务活动的有用信息。1.3数据挖掘技术将来的发展趋势:1)数据挖掘技术已经存在相当大市场,将成为对工业产生重要影响的关键技术之一。同吋,并行计算机体系结构研究和KDD也被列入今后5年内公司应该投资的10个新技术领域之一。这些资料都表明,数据挖掘技术在将来冇很大的发展潜力及空间。2)数据挖掘技术作为一门新技术,仍有许多问题需要研究、解决和探索。分析目前的研究和应用现状,对于数据挖掘技术将来的工作重点有:a.数据挖掘技术与特定商业逻辑的平滑集成问题;b.数据挖掘技术与特定数据存储类型的适应问题;c.大型数据的选择和规格化问题;d.数据挖掘系统的
6、构架与交互式挖掘技术;e.数据挖掘语言与系统的可视化问题;f.数据挖掘理论与算法研究。分类是数据挖掘中一项非常重要的任务,打前在商业上的应用最多。分类的目的是提出一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别屮的某一个。分类和回归都可用于预测,预测的目的是从丿力史数据记录屮自动推导出对给定数据的推广描述,从而能对未来数据进行预测。分类的效果一般和数据的特点有关,有的数拯噪声大,有的有缺省值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。打前普遍认为不存在某种方法能适合各种特点的数据。下面
7、介绍几种常用的分类算法。构造一个决策树分类器通常分为两步:树的生成和剪枝。树的生成采用自上而下的递归分治法。如果当前训练例子集合中的所有实例是同类的,构造一个叶节点,节点内容即是该类别。否则,根据某种策略选择一个属性,按照该属性的不同取值,把当前实例集合划分为若干子集合。对每个子集合重复此过程,直到当前集中的实例是同类的为止。剪枝就是剪去那些不会增大树的错课预测率的分枝。经过剪枝,不仅能有效的克服噪声,还使树变得简单,容易理解。生成最优的决策树同样是NP问题。目前的决策树算法通过启发式属性选择策略来解决问题。第二章逐步判别算法2.1逐步分析法概述逐步判别分析法
8、是多元统计学中的一类重要方法。它在生物
此文档下载收益归作者所有