统计分析与数据挖掘.ppt

统计分析与数据挖掘.ppt

ID:49977024

大小:441.26 KB

页数:20页

时间:2020-03-05

统计分析与数据挖掘.ppt_第1页
统计分析与数据挖掘.ppt_第2页
统计分析与数据挖掘.ppt_第3页
统计分析与数据挖掘.ppt_第4页
统计分析与数据挖掘.ppt_第5页
资源描述:

《统计分析与数据挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、统计分析与数据挖掘什么是数据挖掘?技术上的定义应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识这些信息和知识是隐含的、未知的、潜在有用的表示为概念、规则、规律和模式等形式商业角度的定义新型的商业分析处理技术,帮助决策者寻找数据间潜在的关联,发现被忽略的因素这些信息和因素对预测趋势和决策行为是至关重要的与传统分析方法的区别在没有明确假设的前提下去挖掘信息、发现知识所获信息具有先前未知,有效和可实用三个特征数据挖掘的目的噪音数据信息知识智慧“淘金”数据挖掘应用分类数据挖掘模型预测模型分类回归时序分析预测描述模型汇总关联规则序列发现聚类

2、统计分析与数据挖掘的关系数据挖掘软件包中的常用统计分析过程决策树推断规则推断最临近方法聚类方法关联规则特征提取遗传算法统计分析与数据挖掘的关系抽样的魅力如果你希望了解持某种看法的民众在总人口中的比例,只要按照被普遍接受的抽样办法从几百万成年人中选出1500人作为样本,依据这些样本所获得的比例与实际比例的误差可以控制在3%。更令人不可思议的是,这个误差只依赖样本个数,和总体的大小无关,也就是说,如果将这个总体扩大到100亿个个体,那么1500个个体组成的样本调查结果和实际值的误差同样在3%以内。——《让数据告诉你》统计分析与数据挖掘的关系抽样的魅力百亿人

3、十亿人百万人样本1500人样本比例n=1500总体比例pN=百万/十亿/百亿用样本估计大总体参数的误差与N无关,仅取决于n与主成分分析(PCA)概念:利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法数学上的处理:将原来p个指标作线性组合,作为新的综合指标。根据方差最大化原理,选取的新线性组合,依次得到第一主成分F1、第二主成分F2……且要求Cov(F1,F2)=0,实际工作中,就挑选前几个最大主成分优点:减少信息交叉PCA在市场研究中的应用案例:某食品生产商预对常用50种食品的生产进行经营决策,对785名消费者的食品嗜好程度进行调查,要

4、求每个消费者对50种食品进行评价,按对食品的喜好程度在1-9分内评分。分析过程:将被调查者按性别与年龄分成10组,1—5组表示男性,6—10组表示女性,且1—5,6—10各组分别按年龄从小到大排序。然后计算各组对每种食品评分的平均值,即得到含有10个变量的样本观测数据。食品组号1234567891017.85.43.93.53.08.16.05.43.82.521.62.84.44.03.56.27.27.57.09.0……………503.12.83.33.02.53.93.53.02.83.0PCA在市场研究中的应用对样本观测数据矩阵标准化,计算相关系

5、数矩阵(这里是10个变量即为10阶),求出特征值及相应的特征向量,得到10个主成分,根据贡献率大小实际中一般选取前面几个影响较大的PCA在市场研究中的应用男性女性年龄年龄平均嗜好年龄性别代入标准化的原始数据,按照各个食品种类得到各主成分得分……聚类分析概念:将大量对象和描述对象的众多属性分成由类似的对象组成的多个类的过程依据的原则:“物以类聚”与分类的区别:进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组目的:发现空间实体的属性间的函数关系,如何在没有先验知识的前提下,实现满足这种要求的类的聚合聚类分析方法利用相似系

6、数:性质越接近的对象,他们的相似系数越接近于1(或-1),而彼此无关的对象他们的相似系数则越接近于0,比较相似的对象归为一类,不怎么相似的对象属于不同的类利用空间距离:将每一个对象看作m维空间的一点,并在空间定义距离,距离较近的点归为一类,距离较远的点应属于不同的类聚类算法:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法聚类在客户细分中的应用案例:中国移动客户细分分析过程:基于已有的海量客户数据,产生上百个描述客户的变量聚类在客户细分中的应用然后将客户群体通过聚类算法分成多个客户组。每个组的客户特性表现相对接近,组的个数非人为决定,

7、而取决于客户总体内在的特性。聚类在客户细分中的应用分组结果:两种方法的比较主成分分析是一种线性降维方法,由于原数据的维度过高,可以通过一些投影变换,将高维数据投影到低维度中,然后再观察数据的特点,便于对数据进行进一步的观察和处理。适用于目标的降维处理。聚类相当于将一大群人按照他们的距离(这里的距离可能是他们的相似程度或者其他,越相似距离越短)进行分类,聚类分析可以获得数据的分类,但是这个分类不一定反映数据的真实模型。适用于目标分类。聚类时对样品之间的相似系数和距离的定义与指标(变量)的类型关系极大,通常指标按照测量它们的尺度来进行分类。主成分聚类适用于

8、对样品的综合评价。数据挖掘中的其他统计方法回归广义线性模型方差分析混合效应模型因素分析判别式分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。