欢迎来到天天文库
浏览记录
ID:53018052
大小:408.15 KB
页数:21页
时间:2020-04-13
《数据挖掘基本概念解说.pptx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘技术概论2018-9-281部门:网科研发部姓名:张巡目录数据挖掘的基本概念1数据挖掘方法分类2CONTENTS数据挖掘案例32数据挖掘技术概论一、数据挖掘的基本概念3数据挖掘技术概论1.知识发现(Knowledge-DiscoveryinDatabases,简称:KDD)知识发现(KDD:KnowledgeDiscoveryinDatabase)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现就是从数据源中抽取感兴趣的数据,并把这些数据组织成符合挖掘的组织形式
2、,然后利用相应的算法、模型生成想要的知识模式,最后对生成的知识模式进行评估,并把有价值的知识集成到应用系统当中。4一、数据挖掘的基本概念数据挖掘技术概论常用KDD过程模型(KDDprocessmodel)Fayyad,Piatetsky-Shapiro和Smyth在1996年合作发布的论文中总结出了KDD包含的5个最基本步骤--------------------------------------++++++数据源选择目标数据预处理预处
3、理数据转换转换后数据数据挖掘评估知识模式知识2.数据挖掘的概念数据挖掘,英文称为Datamining,又称为资料探勘、数据采矿等等。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。5一、数据挖掘的基本概念数据挖掘技术概论3.数据挖掘的发展历史
4、6一、数据挖掘的基本概念数据挖掘技术概论1989年第11届国际人工智能联合会议。第一次提出KDD的概念。1995年第一届知识发现和数据挖掘国际学术会议。首次提出数据挖掘的概念。1995年底美国计算机年会。开始把数据挖掘认为是KDD过程中对数据真正应用算法抽取知识的一个基本步骤。如今各种各样的数据挖掘软件和算法。4.数据挖掘基本流程7一、数据挖掘的基本概念数据挖掘技术概论DataBusinessUnderstandingDataUnderstandingModelingEvaluationDeploymentD
5、ataPreparation跨行业数据挖掘标准流程4.数据挖掘基本流程8一、数据挖掘的基本概念数据挖掘技术概论数据采集开始数据分析数据清洗采样特征提取缺失值计算定量特征二值化定性特征编码数据变换无量纲化特征选择降维训练预测评估结束模型选择二、数据挖掘的方法分类9数据挖掘技术概论101.几种简单的数据挖掘方法分类(Classification)聚类(Clustering)回归分析(Regressionanalysis)关联规则(Affinitygroupingorassociationrules)复杂数据类型挖
6、掘(Text,Web,图形图像,视频,音频等)数据挖掘技术概论二、数据挖掘方法分类112.分类(Classification)C4.5(基于决策树改进的算法)CART(分类回归树)SVM(支持向量机)AdaBoost(集成学习算法)kNN(K近邻算法,k-NearestNeighbor)NaiveBayesian(朴素贝叶斯)数据挖掘技术概论二、数据挖掘方法分类数据已训练好的模型类别A类别B122.分类(Classification)kNN(K近邻算法,k-NearestNeighbor)数据挖掘技术概论二、
7、数据挖掘方法分类133.聚类(Clustering)(1)划分方法(2)层次的方法(3)基于密度的方法(4)基于网格的方法(5)基于模型的方法经典算法:K-means(K均值)数据挖掘技术概论二、数据挖掘方法分类144.回归分析(Regressionanalysis)回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系,反映的是变量或属性间的依赖关系。线性回归多项式回归逻辑回归数据挖掘技术概论二、数据挖掘方法分类X155.关联规则(Affinitygroupingorassociati
8、onrules)关联规则最初提出的动机是针对购物篮分析(MarketBasketAnalysis)问题提出的。关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中,关联规则XY,存在支持度和信任度。关联规则中最经典的算法:Apriori算法数据挖掘技术
此文档下载收益归作者所有