大数据挖掘算法设计说明

大数据挖掘算法设计说明

ID:47851749

大小:798.64 KB

页数:26页

时间:2019-11-28

大数据挖掘算法设计说明_第1页
大数据挖掘算法设计说明_第2页
大数据挖掘算法设计说明_第3页
大数据挖掘算法设计说明_第4页
大数据挖掘算法设计说明_第5页
资源描述:

《大数据挖掘算法设计说明》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、......大数据挖掘平台算法设计目录一.基本统计方法1二.降维算法(PCA/SVD)12.1主成分分析(PCA)12.2奇异值分解(SVD)3三.分类算法43.1分类算法基本介绍43.2分类算法输入与输出8四.聚类算法134.1聚类算法介绍134.2聚类算法的输入174.3聚类算法的输出18五.关联分析算法195.1关联分析算法介绍195.2关联分析算法的输入205.3关联分析算法的输出20六.数值预测算法216.1数值预测算法介绍216.2数值预测算法的输入246.3数值预测算法的输出246.4数值预

2、测算法的效果评估25学习好帮手......一.基本统计方法基本统计方法包括相关分析和假设检验,建模所需数据比较简单,具体如表1所示。表1-1基本统计方法输入输出整理算法类型算法名称输入输出输出形式基本统计方法相关分析(Pearson、Spearman)各变量的值(数值型)变量的相关系数表或图假设检验(卡方检验、KS检验)各变量的值(数值型)检验统计量及p值表或图二.降维算法(PCA/SVD)2.1主成分分析(PCA)主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到

3、低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。2.1.1PCA输入变量类型:主成分分析的变量类型都是数值型变量目标变量定义:主成分分析无目标变量(无因变量)2.1.2PCA输出主成分分析分析输出包括各主成分得分表,如表1-8所示,第一列为标签变量,X1、X2、X3、X4、X5为建模输入的变量,第一主成分得分、第二主成分得分、第三主成分得分以及主成分综合得分为各主成分的得分。学习好帮手......表1-2主成分分析输出结果(示例)样本X1X2

4、X3…X5第一主成分得分第二主成分得分主成分综合得分0011670.01848.93821.2…0.73.171.332.5260021140.25562.12578.24…0.471.550.341.12650037100.453619.283481.29…0.3-0.840.78-0.2730043470.011759.981709.92…0.370.34-0.210.1475主成分分析分析输出还包括各主成分特征值及方差贡献率,如表1-3所示。表1-3特征值与方差贡献率ComponentInitial

5、EigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%14.81537.03837.0384.81537.03837.0383.31525.50225.50222.41218.55155.5892.41218.55155.5892.38518.34243.84

6、431.60512.34567.9351.60512.34567.9352.28717.59561.439主成分分析还包括KMO检验表,判断是否适合做主成分分析,如表1-4所示。表1-4KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy.0.693Bartlett'sTestofSphericityApprox.Chi-Square523.978df78Sig..000主成分分析还包括载荷矩阵,如表1-5所示,可以得出各指标在各主

7、成分的载荷系数。表1-5载荷矩阵(示例)成长性指标Component.955.249-.003-.065-.076.950.256-.019-.073-.091.937.280-.042-.080-.104.345.893.055-.032-.085学习好帮手......2.2奇异值分解(SVD)假设C是MxN矩阵,U是MxM矩阵,其中U的列为CCT的正交特征向量,V为NxN矩阵,其中V的列为CTC的正交特征向量,再假设r为C矩阵的秩,则存在奇异值分解:其中CCT和CTC的特征值相同,为Σ为MXN,其中,

8、其余位置数值为0,的值按大小降序排列。以下是Σ的完整数学定义:σi称为矩阵C的奇异值。SVD常用于潜在语义分析,作为文本数值转化后的计算模型。2.2.1SVD分解的输入变量类型:SVD分解的输入变量都是数值型变量目标变量定义:SVD分解无目标变量(无因变量)2.2.2SVD分解的输出变量类型:SVD分解的输出包括三部分:U矩阵、Σ(奇异值对角阵或奇异值)和V(V矩阵或V的转置矩阵)。SVD的分解如图1所示,图1-1基于R语言进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。