《数据挖掘简介》word版

《数据挖掘简介》word版

ID:30373653

大小:87.03 KB

页数:12页

时间:2018-12-29

《数据挖掘简介》word版_第1页
《数据挖掘简介》word版_第2页
《数据挖掘简介》word版_第3页
《数据挖掘简介》word版_第4页
《数据挖掘简介》word版_第5页
资源描述:

《《数据挖掘简介》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据挖掘简介数据挖掘简介2010-04-2820:47数据挖掘数据挖掘(DataMining)是采用数学、统计、人工智能和神经网络等领域的科学方法,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为商业智能系统服务的各业务领域提供预测性决策支持的方法、工具和过程。数据挖掘前身是知识发现(KDD),属于机器学习的范畴,所用技术和工具主要有统计分析(或数据分析)和知识发现。知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物,是从数据中发现有用知识的整个过程。机器

2、学习(MachineLearning)是用计算机模拟人类学习的一门科学,由于在专家系统开发中存在知识获取的瓶颈现象,所以采用机器学习来完成知识的自动获取。数据挖掘是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(Patterns)。1996年,Fayyad、Piatetsky-Shapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的;KDD是从大量数据中提取出可信的、新颖的、有效的,并能被人理解的模式的处理过程,这种处理过程是一种高级的处理过程。数据挖掘则是按照

3、既定的业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将其设计为先进的模型和有效的操作。在日常的数据库操作中,经常使用的是从数据库中抽取数据以生成一定格式的报表。KDD与数据库报表工具的区别是:数据库报表制作工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户;而KDD则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。报表工具能制作出形如"上学期考试未通过及成绩优秀的学生的有关情况"的表格;但它不能回答"考试未通过及成绩优秀的学生在某些方面有些什么不同的特征"的问

4、题,而KDD就可以回答。具体来说,数据挖掘针对商业智能系统的大量的数据,运用记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,对商业智能系统数据进行描述,以发现数据中隐藏的模式,并通过这些模式建立面向主题的预测模型,再用这些模型来为商业智能系统运营的各个领域提供决策支持。1.数据挖掘和知识发现系统的一般结构和过程数据挖掘和知识发现系统用于发现预先不具有的知识(即那些算法中没隐含的知识,或者在其应用知识领域中没显式表示的知识)。知识是一种描述规律的信息,表现为数据元素间的关系或模式,这些数据与特定的领域和任务相关,并且是令人

5、感兴趣的和有用的。系统的逻辑结构图如图16-18所示。图16-18数据挖掘系统逻辑结构图l1)知识发现系统管理器主要功能是控制并管理知识发现的过程,分析员录入知识库中的信息用于驱动数据选择过程、抽取算法选择及使用过程和发现评价过程。l2)知识库和分析员录入知识库包含源多方面必需的信息。分析员可以将元数据输入数据仓库中来描述数据仓库的数据结构,输入关键数据字段、规则、数据层次等。l3)数据仓库的数据访问接口知识发现系统利用数据库的查询机制从数据仓库中提取数据,可使用SQL查询语言,结合知识库中的数据仓库元数据指导从数据仓库中提取需要的数据

6、。l4)数据选择确定从数据仓库需要抽取的数据及数据结构。知识库指导选取要抽取的数据及抽取方式。l5)知识发现引擎将知识库中的抽取算法提供给数据抽取的数据,目的是要抽取数据元素间的模式和关系。抽取算法如:数据依赖、分类规则、聚簇、概括数据、偏差检查、归纳和模糊推理等。l6)发现评价分析员要寻找关注性的数据模式,数据仓库潜在地具有宿主模式,选出那些关注性信息。l7)发现描述提供两种功能,一种是以发现评价辅助分析员在知识库中保存所发现的关注性结果以备将来引用和使用,另一种是保持发现与决策者的通信。l8)KDD的一般过程l学习某个应用领域:包括

7、应用中的预先知识和目标。l建立一个目标数据集:选择一个数据集或在多数据集的子集上聚焦。l数据清理和预处理:去除噪声或无关数据、考虑时间顺序和数据变化等。l数据换算和投影:找到数据的特征表示、用维变换或转换方法减少有效变量的数目或找到数据的不变式。l选定数据挖掘功能:决定数据挖掘的目的。l选定某个数据挖掘算法:用KDD过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等),用于搜索数据中的模式,该算法可以是近似的。l数据挖掘:搜索或产生一个特定的感兴趣的模式或数据集。l解释:解释某个发现的模式,去掉多余的不切题意的模式,转换

8、成某个有用的模式,以使用户明白。l发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识,用预先、可信的知识检查和解决知识中可能的矛盾。2.数据挖掘的方法和技术知识发现中的关键技术是进行模式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。