主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析、聚类分析、因子分析的基本思想及优缺点

ID:44039932

大小:38.00 KB

页数:6页

时间:2019-10-18

主成分分析、聚类分析、因子分析的基本思想及优缺点_第1页
主成分分析、聚类分析、因子分析的基本思想及优缺点_第2页
主成分分析、聚类分析、因子分析的基本思想及优缺点_第3页
主成分分析、聚类分析、因子分析的基本思想及优缺点_第4页
主成分分析、聚类分析、因子分析的基本思想及优缺点_第5页
资源描述:

《主成分分析、聚类分析、因子分析的基本思想及优缺点》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标來解释多变量的方差・协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总休协方差阵与相关阵是未知的,必须通过样本数据來佔计)注意事项:1•由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;2.对

2、于度虽单位或是取值范围在同量级的数据,可直接求协方差阵;对于度虽单位不同的指标或是取值范I韦I彼此差异非常人的指标,应考虑将数据标准化,再由协方差阵求主成分;3.主成分分析不要求数据來源于正态分布;4.在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集屮了原始变量的人部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧垂于信息贡献影响力综合评价。缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名

3、清晰性低。聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元索的相似性更强。目的在于使类间元素的同质性最人化和类与类间元素的界质性最大化。。其主要依据是聚到同一个数据集中的样木应该彼此相似,而属于不同组的样本应该足够不相似。常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。注意事项:1.系统聚类法可对变量或者记录进行分类,K■均值法只能对记录进行分类;2.K・均值法要求分析人员爭先知道样品分为多少类;2.对变量的多元正态性,方差齐性等要求较高。应川领域:细分市场,消费行为划分,设计抽样方案等优点:

4、聚类分析模型的优点就是直观,结论形式简明。缺点:在样本量较大吋,要获得聚类结论有一定困难。由丁•相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中冇时尽竹从被试反映所得出的数据中发现他们Z间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或札I似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具冇错综复杂关系的变蜃归结为少数几个综合因了。(因了分析是丄成分的推广,相对于上成分分析,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变

5、量浓缩成少数几个因了变量,以及如何使因了变量具冇较强的可解释性的一种多元统计分析方法。求解因/载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。注意事项:5.因子分析中各个公共因子之间不相关,特姝因子之间不相关,公共因子和特殊因子Z间不相关。应川领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。优点:第一它不是对原有变最的取舍,而是根据原始变最的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。缺点:在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。判别分析:从已知的各种分类

6、悄况屮总结规律(训练出判别函数),当新样品进入时,判断其与判别两数之间的相似程度(概率最人,距离最近,离差最小等判别准则)。常用判别力法:最人似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。注意爭项:1.判别分析的慕本条件:分组类型在两组以上,解释变虽必须是可测的;2.每个解禅变量不能是其它解释变量的线性组合(比如岀现多重共线性悄况时,判别权重会出现问题);3.各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差杲时,判别函数不相同)。2.相对而言,即使判别函数违反上述适用条件,也很稳健,

7、对结果影响不大。应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。对应分析/最优尺度分析:利川降维的思想以达到简化数据结构的冃的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行少列Z间的关系。对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。