成都it培训:数据挖掘和数据分析概述

成都it培训:数据挖掘和数据分析概述

ID:30812187

大小:75.78 KB

页数:17页

时间:2019-01-03

成都it培训:数据挖掘和数据分析概述_第1页
成都it培训:数据挖掘和数据分析概述_第2页
成都it培训:数据挖掘和数据分析概述_第3页
成都it培训:数据挖掘和数据分析概述_第4页
成都it培训:数据挖掘和数据分析概述_第5页
资源描述:

《成都it培训:数据挖掘和数据分析概述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、课工场成都基地www.028kgc.com成都IT培训:数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处:1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需要有太多的行业的专业知识。3、交叉学科方面,数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析;数据挖掘更多的是注重技术层面

2、的结合以及数学和计算机的集合数据挖掘和数据分析的相似之处:1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。2、都需要懂统计学,懂数据处理一些常用的方法,对数据的敏感度比较好。3、数据挖掘和数据分析的联系越来越紧密,很多数据分析人员开始使用编程工具进行数据分析,如SAS、R、SPSS等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。课工场成都基地www.028kgc.com数据挖掘1数学预备知识概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。矩阵论:线性代数中对数据挖掘最有用的部分,还

3、有一些线性空间相关知识也很重要。信息论:将信息和数学紧密连接在一起并完美的表达的桥梁,需要掌握信息熵、信息增益等相关知识。统计学:数据分析最早的依赖基础,通常和概率论一起应用,现在的机器学习和数据挖掘很多都是基于统计的,常见的均值、方差、协方差等都要熟练掌握。2编程基础课工场成都基地www.028kgc.com数据挖掘需要一定的编程基础,因为要实现模型以及数据的处理很多工作都是需要程序来进行的,数据挖掘常用的编程语言如下:SQL:数据库的熟练使用是任何数据挖掘人员必不可少的技能。C++:有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。Python:对字符串处理有极大的优

4、势,是解释型语言,实现简单,而且有很多开源的机器学习模型库的支持,可处理大规模数据。Matlab:拥有强大的矩阵运算,也是解释型语言,有很多发展较成熟库可以直接调用,支持数据结果的可视化表示,但是处理数据量有限。R:近年兴起的数据分析编程语言,数据可视化做的比较好,语法简单,学习成本很低,很多非程序设计人员都可以数量掌握。Java:使用范围最广的编程语言,有很多社区进行交流,进行编程实现具有灵活高效的特点,不足之处就是实现功能的代码量较大(相对于其他数据挖掘编程语言)。Scala:一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时Scala是大数据处理平台Spark的

5、实现语言。3数据挖掘的模型知识机器学习和数据挖掘是紧密相关的,要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识,通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下:3.1监督学习模型课工场成都基地www.028kgc.com就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。3.1.1决策树:决策树是用于分类和预测的主要技术之一,决策树学习

6、是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。3.1.2贝叶斯方法:贝叶斯(Bayes)分类算法是一类利用概率统计知识进行

7、分类的算法,如朴素贝叶斯(Naive课工场成都基地www.028kgc.comBayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(TreeAugmentedNativeBayes)算法,它是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。