欢迎来到天天文库
浏览记录
ID:37113826
大小:648.00 KB
页数:91页
时间:2019-05-10
《数据挖掘入门》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘入门7/22/20211引言KDD与数据挖掘数据挖掘方法数据挖掘的应用和发展趋势数据预处理可视化数据挖掘7/22/20212一、引言什么激发了数据挖掘近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域,如商务管理、生产控制、市场分析、工程设计和科学探索等。面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现(KnowledgeDiscovery
2、inDatabase)及相应的数据挖掘(DataMining)理论和技术的研究。7/22/20213为什么数据挖掘是重要的数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”——难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。7/22/202142.1KDD定义人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效
3、的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。二、KDD与数据挖掘7/22/202152.2KDD过程KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。7/22/20216知识发现(KDD)的过程数据清理筛选数据目标数据Knowledge预处理及变换变换后的数据数据挖掘解释/评估7/22/20217知识发现(KDD)的步骤数据准备:了解KDD应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。数据选取:数据选取的目的
4、是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。7/22/20218数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。7
5、/22/20219数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。7/22/202110什么是数据挖掘数据挖掘(从数据中发现知识)从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)
6、模式和知识。其它可选择的名字数据库中知识挖掘、知识提取、数据/模式分析、数据考古、数据捕捞、信息获取、事务智能等。广义观点数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。7/22/202111数据挖掘系统的组成数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:是领域知识,用于指导搜索,或评估结果模式的兴趣度。7/22/202112数据挖掘引擎:数据挖掘
7、系统的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。7/22/202113数据挖掘系统结构数据仓库数据清理数据集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库7/22/2021143.1可以分别按挖掘任务、挖掘对象
8、和挖掘方法来分类。按挖掘任务分类:包括分类或预测知识模型发现,数据总结,数据聚类,关联规则发现,时序模式发现,依赖关系或依赖模型发现,异常和趋势发现等
此文档下载收益归作者所有