欢迎来到天天文库
浏览记录
ID:34395355
大小:313.46 KB
页数:6页
时间:2019-03-05
《数据挖掘技术综述52811》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘技术综述’王桂芹黄道华尔理.I:人学信息科学与I:科学院,上海20023’一、,‘摘要:随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(DataMining)技术应运而生。本文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据挖掘的应用及其发展前景也进行了描述。关键词:数据挖掘方法应用前景、.1引言随着信息技术迅速发展,数据库的规模不断扩人,从而产生了人苗的数据。激增的数据背后隐藏着许多重
2、要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但人鼙的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的卉洵、报表.1:具无法满足挖掘这些信息的需求。冈此,需要一种新的数据分析技术处理人量数据,并从中抽取有价值的满在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也止是伴随着数据仓库技术的发展而逐步完善起来的【1.2】。‘2.1数据挖掘的定义2数据挖掘技术。数据挖掘是指从数据集合中白动抽取隐藏在数据中的那些有心信息的非平凡过程,这些信息的表现形式为
3、:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测术米可能发生的行为。数据挖捌的过稃也叫知识发现的过程。它是一J’J涉及面很广‘的交叉性新兴学科,涉及剑数据库、人.1:智能、数理统计、可视化、并行计算等领域。数据挖捌是一种新的信息处理技术.其主要特点是对数据库中的人量数据进行抽取、转换、分析和其他模耍!化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不是用规范的数据库查洵语言(如SQL)进行奄询,而是对夯洵的内容进行模式的总结和内
4、在规律的搜索。传统的查询和报表处理只是得到事什发生的结果,并没有深入研究发生的原冈,而数据挖掘则土要了解发生的原冈,并且以一定的置信度对术米进行预测,Hj米为决策行为提供有利的支持。..2.2数据挖掘的方法一;数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使州的数据挖掘模型有线形分析和非线形分析、同l门分析、逻辑同门分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。利用这些技术可以检奇那些异常形式的数据,然后,利川各种统计模型和数学模型解释这些数
5、据,’解释隐藏在这些数据背屙的市场规律和商业机会。知识发现类数据挖掰技术楚一种与统计分析类数据携掘技术兜全不同的挖搠技术,包括人l:神经元嘲络、支持向餐机、决策树、遗传掉法,狙糙鳐、规№日发现和荧联顺序等∽·“。2。2.1统计方法、传统的统计学为数据挖掘提供了许多判别和闸门分析方法,常心的有贝叫斯推理、同门分析,方差分析等技洙,受叶斯推理是在知道新的信息后修正数据集概率分布的基本l:具,处理数据挖掘中的分类阀题,+同归分析J{4来找剑一个输入变姑帮l输山变觜关系的最佳模础,在闸门分析中有心米描述一个变鬣的变化趋势和蛳的变龉值的荚系的线性同门.还有埘来为某些事件发生的
6、概率建模为预测变鼙集的对数同门、统计方法中的方差分据一般_I_}{丁.分辑估计同归直线的性能羽l自变始对最终同门的影响,越许多挖蜊府坞中有力的J:典之一。2.2.2美联规则_爻联规则是一种简单,实Ⅲ的分析规91lj,它描述了一个书物中某些属性同时出现的规怅录I模式,是数据挖绷中聚成熟的主要鼓术2~。它楚由R.Agrawal等人首先提出豹,最经典豹关联规瓣的挖掘算法是Apriori,该算法先挖山所有的频繁项集,然后,由频鳞项集产生戈联规jJ!lJ,许多关联规则频繁项集的挖掘算法都是由它演交而米的,关联筑J}}c
7、在数据挖掘领域麻刖很r泛适合丁在人警数据集中发现数据之间
8、的有意义Ⅳ芙系,原因之一是它不受只选择一个闪变姑的限制,戈联规则在数据挖捌领域最典型的应朋蛙购物篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有芙联天系,.所挖掘出的关联规剐鹫往往1}常巨大,但是。弗不是所毒通过关联得刽的属性之阂的芙系都夺实际应}{{债俊。对这些关联规则进行有效的评价。筛选山_}Ij户真¨【J二感匙趣的,有意义的关联规则尤为重要。2.2.3聚类分析,蒙类分析是根据所选样本间犬联的标准将其划分成儿个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,訇j分聚类象l增鼙聚娄。聚类方法适合丁^探讨样本
此文档下载收益归作者所有