欢迎来到天天文库
浏览记录
ID:47360242
大小:698.90 KB
页数:26页
时间:2020-01-10
《大数据挖掘算法设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、.大数据挖掘平台算法设计目录一.基本统计方法1二.降维算法(PCA/SVD)12.1主成分分析(PCA)12.2奇异值分解(SVD)3三.分类算法43.1分类算法基本介绍43.2分类算法输入与输出8四.聚类算法134.1聚类算法介绍134.2聚类算法的输入174.3聚类算法的输出18五.关联分析算法195.1关联分析算法介绍195.2关联分析算法的输入205.3关联分析算法的输出20六.数值预测算法216.1数值预测算法介绍216.2数值预测算法的输入246.3数值预测算法的输出246.4数值预测算法的效果评估25..一.基本统计方法基本统计方法包括相关分析
2、和假设检验,建模所需数据比较简单,具体如表1所示。表1-1基本统计方法输入输出整理算法类型算法名称输入输出输出形式基本统计方法相关分析(Pearson、Spearman)各变量的值(数值型)变量的相关系数表或图假设检验(卡方检验、KS检验)各变量的值(数值型)检验统计量及p值表或图二.降维算法(PCA/SVD)2.1主成分分析(PCA)主成分分析(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。2.1.1PCA输入变量
3、类型:主成分分析的变量类型都是数值型变量目标变量定义:主成分分析无目标变量(无因变量)2.1.2PCA输出主成分分析分析输出包括各主成分得分表,如表1-8所示,第一列为标签变量,X1、X2、X3、X4、X5为建模输入的变量,第一主成分得分、第二主成分得分、第三主成分得分以及主成分综合得分为各主成分的得分。..表1-2主成分分析输出结果(示例)样本X1X2X3…X5第一主成分得分第二主成分得分主成分综合得分0011670.01848.93821.2…0.73.171.332.5260021140.25562.12578.24…0.471.550.341.126
4、50037100.453619.283481.29…0.3-0.840.78-0.2730043470.011759.981709.92…0.370.34-0.210.1475主成分分析分析输出还包括各主成分特征值及方差贡献率,如表1-3所示。表1-3特征值与方差贡献率ComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%
5、ofVarianceCumulative%14.81537.03837.0384.81537.03837.0383.31525.50225.50222.41218.55155.5892.41218.55155.5892.38518.34243.84431.60512.34567.9351.60512.34567.9352.28717.59561.439主成分分析还包括KMO检验表,判断是否适合做主成分分析,如表1-4所示。表1-4KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy.0
6、.693Bartlett'sTestofSphericityApprox.Chi-Square523.978df78Sig..000主成分分析还包括载荷矩阵,如表1-5所示,可以得出各指标在各主成分的载荷系数。表1-5载荷矩阵(示例)成长性指标Component.955.249-.003-.065-.076.950.256-.019-.073-.091.937.280-.042-.080-.104.345.893.055-.032-.085..2.2奇异值分解(SVD)假设C是MxN矩阵,U是MxM矩阵,其中U的列为CCT的正交特征向量,V为NxN矩阵,其中
7、V的列为CTC的正交特征向量,再假设r为C矩阵的秩,则存在奇异值分解:其中CCT和CTC的特征值相同,为Σ为MXN,其中,其余位置数值为0,的值按大小降序排列。以下是Σ的完整数学定义:σi称为矩阵C的奇异值。SVD常用于潜在语义分析,作为文本数值转化后的计算模型。2.2.1SVD分解的输入变量类型:SVD分解的输入变量都是数值型变量目标变量定义:SVD分解无目标变量(无因变量)2.2.2SVD分解的输出变量类型:SVD分解的输出包括三部分:U矩阵、Σ(奇异值对角阵或奇异值)和V(V矩阵或V的转置矩阵)。SVD的分解如图1所示,图1-1基于R语言进行SVD分解
8、..三.分类算法3.1分类算法基本介绍3.1.1决策
此文档下载收益归作者所有