欢迎来到天天文库
浏览记录
ID:38665383
大小:391.00 KB
页数:11页
时间:2019-06-17
《对应分析建模与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、对应分析建模与应用*教育部人文社会科学研究规划基金项目资助,项目批准号:09YJA910002;教育部人文社会科学重点研究基地重大项目资助,项目批准号:2009JJD910001;广东省普通高校人文社科研究项目资助,项目批准号:10WYXM020;广东商学院科学研究重点项目资助,项目批准号:08ZD11001。林海明1林媛媛21.广东商学院经济贸易与统计学院2.香港科技大学数学系摘要:传统的对应分析是方法不唯一、没有模型的一种统计方法,其在满足对数据进行非线性预处理变换或应用主成分等的条件下,一些变量和样品失去了对应关系,导致结果粗略,甚至不解决问题。为了完善和发展对应分析,这里根据对应分
2、析的目的,用数学建模方法,给出了相应数学公式,提出了对应分析模型,应用因子分析主成分法的因子分析图—将因子载荷图加到其因子得分图中的图,证明了:因子分析图是对应分析模型的图形解。给出了一个较清晰的分类标准,用理论和例说明了因子分析图的优良性。从而建立了对应分析的模型和优化理论。关键词:对应分析;建模;因子分析图;应用中图文分类号:O212文献标识码:A一、引言数据的维数不大于3时,数据能显示在立体、平面或直线上,这有助于人们从图形中直观地看出样品的相异性(距离)、变量(指标)的相关性及其方向、变量对样品位置的贡献等特征。但常见的是,数据的维数大于3,这已不能用常规方法点图。自20世纪70年
3、代以来,这一直是人们所关注的问题,人们想了不少办法。其研究的目的之一是:“将原始数据‘拟合’到一个低维坐标系中,使得由降维所引起的任何变形达到最小。”[1]当变形是指样品的相异性(距离)或变量的相关性时,是多维标度变换;[1]多维标度变换现在已经成为一种广泛用于心理学、市场调查、社会学、政治学、物理学及生物学等领域的数据分析方法,但其局限性是仅反映样品的相异性或仅反映变量的相似性。当变形是同时指①样品的相异性(距离)、②变量的相关性及其方向和③变量对样品位置的贡献关系等时,这将是对应分析。显然,对应分析的理论和方法比多维标度变换更重要、更深入。目前,国内外流行的对应分析有两个:其一是美国统
4、计学教授R.A.Johnson等[1](2007)给出的双重信息图,它是将数据阵作标准化的预处理变换,应用主成分分析降维,将变量的信息加到主成分值图中去,从图中可以看出样品之间是如何分组聚集的(无相关性),以及变量对样品位置的贡献;其二是法国统计学家J.P.Beozecri[2](1970)给出的对应分析(下称B氏方法),它是对数据阵作一类似“概率”的列联表,按独立性检验χ2统计量的一般项进行预处理变换,用主成分分析(或初始因子)降维,将变量和样品的主成分(或初始因子)点在同一张图上,使得问题的分析带来许多方便[3]。以下内容涉及到指标(或称变量)方向,称越大越好的指标为正指标;称越大越不
5、好的指标为负指标(取负数加一常数后有正向意义)或逆指标(取倒数乘一常数后有正向意义)。现在说明传统对应分析法存在的不足:例1[1]表12.9列出了1995年美国25所大学本科办学情况的数据,指标为:X1-新生的平均SAT得分,X2-新生中在高中时期名列班上前10%的人数百分比,X311-报名者被接受入学的百分比,X4-学生与教师的比例,X5-估计的年费用,X6-毕业率(%)。X1、X2、X5、X6是正指标,X3是负指标,X4是逆指标。样品1-哈佛大学、2-普林斯顿大学、3-耶鲁大学、4-斯坦福大学,5-麻省理工学院是人们认为好的名校。[1]有双重信息图1,其中横轴是第一主成分轴,纵轴是第二
6、主成分轴,xi为该方法的变量,编号为样品代码。给出了相近样品、变量对样品影响的一些分析,但没有注意:图1双重信息图[1](1)双重信息图1没有对负指标X3和逆指标X4进行正向变换、主成分分析不能旋转[5],使得变量相关性及其方向不清晰,一些变量失去了应有的方向和意义、一些样品失去了应有的位置特征。在图1中,正指标X1、X5有正、负值(第四象限);逆指标X4有负、正值(第二象限),即指标X1、X4、X5失去了应有的方向和意义;好的名校5-麻省理工学院的坐标值有正、负值(第四象限)等,即样品5-麻省理工学院等失去了好的位置特征。(2)B氏方法没有对负指标X3和逆指标X4进行正向的变换,没有旋转
7、功能,对数据阵的预处理变换不是线性变换(证明见后),其降维坐标系没有正向化,使得变量相关性及其方向同样不清晰,且数据变形太大。图2B氏方法图通过SAS9.0过程命令[4],用[2]表12.9的数据得图2,其中横轴是第一因子轴,纵轴是第二因子轴,xi为该方法的相应变量,编号为样品代码。在B氏方法图2中,正指标X1、X2、X6坐标值是负值(第三象限);负指标X3坐标值是正值(第一象限);正指标X5、逆指标X4坐标值有正或有负
此文档下载收益归作者所有