资源描述:
《主成分分析原理.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、■Cenbnch涪度系数a的取值范围到底是多大?真如好多专业书上所说是【0,1】吗?]对于a的取值范围很多数书上的表达都比较模糊,普遍认为a倍度系数的值•般在()和1Z间。更有学者给出了经验判泄值,他们认为在基础研究中a系数金少应达到0.8才能接■受,在探索研究中a系数至少应达到0.7才能空a整即可。那么,到底a的理论取值范围是多大呢?(a,1]。比如这两组数据:1、2、3、4、5与5,4,3,2,2。经计算两列数据的a信度系数为-40。如若不信,您大可打开spss自己算一算,消除一下疑虑,所谓实践出真知。■我们先看a信
2、度系数的计算公a=[K/(K-l)]x[l-(£S2i)/(S2x)]o其中,K为量表中题项的总数,S]为第i题得分的题内方差,S〈为全部题项总得分的方差。需要强调的是S?汽是总得分的方差,而不是总离差平方和。此前笔者因为没有看淸楚公式,误把总得分的方芜理解为总离強平方和,在此
3、'
4、汗-个!在方羌分析中,总离差…定人于组内离劳差;但是总得分方芳却有可能小于题内方差。经过我的计算,a值的理论区间应该是难道专家教授们错了?儿百万的莘苹学子又被忽悠了?英实,倒也是不。实际中a系数检测的是数据间的内部…致性。也就是说,在潜在的前
5、提假设中,数据内部应该d]基本一致的,行话就是止相关,所以范围通常在[0,l]Z间。a值用來表示这吐数据间]致程度。如果出现负值,则说明多列数据不一致。但是,七值又不能简单地理解成内部
6、不一致系数,因为a是专门为测量一致性『U设置的,a只在表示-•致性上有意义,或者可以说成是只在a值大于0时才有意义。当多列数据的之间不是止相关时,总得分方差S:可能小于题内方羞工S1,所以负值就会出现。只是相关系数用于测杲两变量之间的关系,而a系数可用于测量多个变量。言度检验测量的是可靠性。实际的问卷调杳中,一般用a系数检验数据内部的一性
7、!但是,检验的前提是数据内部应该是一致的,或者理论上是一致的。比如:做•项教室卫化程度的调查,地板、桌子、玻璃,理论上洁净程度应该…致,要么都脏,要么都丁净。所以可以用a系数测度内部的致性。但是如果内部本來就不-致,检验将没有意义。比如清洁员只打扫了地板、抹桌子,却忘记了擦玻璃。那么地板和桌子可能-尘不染,但是玻璃却会满脸污脏。面对这样的事实,计算出来的a涪度系数,就可能是负值了。所以,当a系数为负时,也不必大惊小怪。这可能反映了数据内部本身的不一致,但更可能的是你忘记把调查中的反向问题止向化了。相关系数定义与说明相关系
8、数,或称线性和关系数、皮氏积矩相关系数(Pearsonproduct-momentcorrelationcoefficient,PPCC)等,是衡量两个随机变量之间线性相关程度的指标。它由卡尔•皮尔森(KarlPearson)在1880年代提出⑴,现已广泛地应用于科学的各个领域。相关系数计算公式相关系数(r)的定义如右图所示,取值范围为卜1,1],r>0表示止相关,rxO表示负相关,
9、r
10、表示了变量之间相关程度的高低。特殊地,r"称为完全止相关,ml称为完全负相关,“0称为不相关。通常
11、r
12、大于0.8吋,认为两个变量有很
13、强的线性相关性。⑵样本相关系数常用r表示,而总体相关系数常用p表示。在线性关系不显著时,还可以考虑采用秩相关系数(rankcorrelation),如斯皮尔曼秩和关系数(Spearman'srankcorrelationcoefficient)等。编辑木段相关性质(1)对称性:X与Y的相关系数(rXY)和Y与X之间的相关系数(rYX)相等;(2)相关系数与原点和尺度无关;(3)若X与Y统计上独立,则它们之间的和关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性;(4)相关系数是线性关联或线性相依的
14、一个度量,它不能用于描述非线性关系;(5)相关系数只是两个变量之间线性关联的一个度量,不一定有因果关系的含义第七章主成分分析(-)教学目的通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,常握用主成分分析方法解决实际问题的能力。(-)基本要求了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。(三)教学要点1、主成分分析基本思想,数学模型,几何解释2、主成分分析的计算步骤及应用(四)教学时数3课时(五)教学内容1、主成分分析的原理及模型2、主
15、成分的导出及主成分分析步骤在实际问题屮,我们经常会遇到研究多个变量的问题,而11在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复朵性。如何从多个变量屮综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一