数据挖掘和知识发现的技术、方法及应用--

数据挖掘和知识发现的技术、方法及应用--

ID:9737162

大小:59.00 KB

页数:8页

时间:2018-05-07

数据挖掘和知识发现的技术、方法及应用--_第1页
数据挖掘和知识发现的技术、方法及应用--_第2页
数据挖掘和知识发现的技术、方法及应用--_第3页
数据挖掘和知识发现的技术、方法及应用--_第4页
数据挖掘和知识发现的技术、方法及应用--_第5页
资源描述:

《数据挖掘和知识发现的技术、方法及应用--》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘和知识发现的技术、方法及应用>>  DataMining(数据挖掘)是指用非平凡的方法从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。该术语还有其他一些同义词:数据库中的知识发现(Knoationextraction)、信息发现(Informationdiscovery)、智能数据分析(Intelligentdataanalysis)、探索式数据分析(exploratorydataanalysis)、信息收获(informationharvesting)、数据考古(data

2、archeology)等。  数据挖掘的发展历程大致如下:  ◆1989IJCAI会议:数据库中的知识发现讨论专题  –Knoyth,andR.Uthurusamy,1996)  ◆1995-1998KDD国际会议(KDD95-98)  –JournalofDataMiningandKnoonFraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查

3、询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强大。同时,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是很讲求实际的。  技术  DataMining(数据挖掘)主要任务有数据汇总、概念描述、分类、聚类、相关性分析、偏差分析、建模等。具体技术包

4、括:  统计分析(statisticalanalysis)  常见的统计方法有回归分析(多元回归、自回归等)、判别分析(贝叶斯分析、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)和探索性分析(主元分析法、相关分析法等)。其处理过程可以分为三个阶段:搜集数据、分析数据和进行推理。  决策树(decisiontree)  决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练

5、集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。  决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。  通过递归分割的过程来构建决策树:1寻找初始分裂,整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。2

6、树增长到一棵完整的树,重复第一步,直至每个叶节点内的记录都属于同一类。3数据的修剪,去掉一些可能是噪音或者异常的数据。  其基本算法(贪心算法)为:自上而下分而治之的方法,开始时,所有的数据都在根节点;属性都是种类字段(如果是连续的,将其离散化);所有记录用所选属性递归的进行分割;属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain)。停止分割的条件:一个节点上的数据都是属于同一个类别;没有属性可以再用于对数据进行分割。  伪代码(BuildingTree)为:P

7、rocedureBuildTree(S){用数据集S初始化根节点R用根结点R初始化队列QIntelligentMiner),能够适用于种类和数值字段。  关联规则(correlationrules)  规则反映了数据项中某些属性或数据集中某些数据项之间的统计相关性,其一般形式为:X1∧∧XnY(C,S),表示由X1∧∧Xn可以预测Y,其中可信度为C,支123下一页>>>>这篇文章来自..,。持度为S。  设I={i1,i2,,im}是二进制文字的集合,其中的元素称

8、为项(item)。记D为交易(transaction)T的集合,这里交易T是项的集合,并且TÍI。对应每一个交易有唯一的标识,如交易号,记作TID。设X是一个I中项的集合,如果XÍT,那么称交易T包含X。  一个关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。规则XÞY在交易数据库D中的支持度(support)是交易集中包含X和Y的交易数与所有交易数之比,记为support(X&THO

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。