数据挖掘与知识管理

数据挖掘与知识管理

ID:43184134

大小:2.16 MB

页数:34页

时间:2019-10-01

数据挖掘与知识管理_第1页
数据挖掘与知识管理_第2页
数据挖掘与知识管理_第3页
数据挖掘与知识管理_第4页
数据挖掘与知识管理_第5页
资源描述:

《数据挖掘与知识管理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘与知识管理数据挖掘人类已进入一个崭新的信息时代数据库中存储的数据量急剧膨胀需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DataMining)理论和技术的研究。一、数据挖掘产生的背景随着大量数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟

2、墓”。由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山信息金块数据挖掘工具数据挖掘是从大量数据中提取或“挖掘”知识。与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(KnowledgeDiscoveryfrom/inDatabase,KDD)知识提取(Knowledgeextract)数据/模式分析(Data/Modelanalysis)。数据考古数据捕捞技术上的定义商业角度的定义二、数据挖掘的定义技术上的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数

3、据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。啤酒与尿布上海海关走私机票销售手机VIP客户三、数据挖掘的过程数据挖掘过程(续)1.数据准备:了解数据挖掘应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。2.数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。数据挖掘过程(续)3.数据预处理:对步骤2中选

4、出的数据进行再处理,检查数据的完整性及数据一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。4.数据变换:根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。数据挖掘过程(续)5.确定数据挖掘目标:根据用户的要求,确定数据挖掘要发现的知识类型。因为对数据挖掘的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。6.选择算法:根据确定的任务选择合适的知识发现算法,包括选取合适的模型和参数。数据挖掘过程(续)7.数据挖掘:这是整个过程中很重要的一个步骤。运

5、用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)是数据挖掘的目的。8.模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,可能会发现这些模式中存在冗余或无关的模式,此时应该将其剔除。如果模式不能满足用户的要求,就需要返回到前面的某些处理步骤中反复提取。数据挖掘过程(续)9.知识评价:将发现的知识以用户能了解的方式呈现给用户。在上述步骤中,数据挖掘占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个KDD过程的效果与效率。数据挖掘任务有两类:第一类是预测性挖掘任

6、务:在当前数据上进行推断,以进行预测;第二类是描述性挖掘任务:刻划数据库中数据的一般特性(相关、趋势、聚类、异常…)。四、数据挖掘的任务四种主要的数据挖掘任务1、预测建模(predictivemodeling)a分类(classfication):用于预测离散的目标变量例如:预测一个web用户是否会在网上书店买书b回归(regression):用于预测连续的目标变量例如:预测某股票的未来价格2、关联分析(associationanalysis)用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。关联分析的目标是以有效的方式提取最有趣的模式。例:找出相关功能

7、的基因组识别一起访问的web页面理解地球气候系统不同元素之间的联系3、聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。应用对相关的顾客分组找出显著影响地球气候的海洋区域图像分割压缩数据…4、异常检测(anomalydetection)异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。应用检测欺诈网络攻击疾病的不寻常模式…知识管理知识管理(K

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。