相关分析与回归分析draft

相关分析与回归分析draft

ID:36639553

大小:1.19 MB

页数:27页

时间:2019-05-13

相关分析与回归分析draft_第1页
相关分析与回归分析draft_第2页
相关分析与回归分析draft_第3页
相关分析与回归分析draft_第4页
相关分析与回归分析draft_第5页
资源描述:

《相关分析与回归分析draft》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、相关分析与回归分析(draft20140507byWeJerry)函数关系(确定的、数学关系):y=f(x)(完全拟合Rଶ=1)相关关系(不确定的、统计关系):y=f(x)+ε(有扰动Rଶ<1)14001200月支1000出(元)80060040040005000600070008000900010000月收入(元)统计分析的根基不是因果关系(函数关系,决定论),而是相关关系(回归分析是进一步的量化),(1)它重在考察变量间的关系是否“显著”;(2)变量Y的变动与什么有关?比如,与X的变动有关,即,X在数量上对Y有一定程度的预测功能,这是一个相关(或回归)问题但是否存在因果关

2、系还需要理论和经验的辅证支撑。所以,在有些参考文献中,变量X也被称为“预测变量”(predictor),变量Yˆ称为“预测值”(predictedvalue)变量Y与X的关系称为“预测关系”(变量X不一定是Y的原因,我们只是利用了其中的统计规律)。依赖于回归关系也可以说成是一种“依赖关系”。比如,收成降雨量,我们只能说收成的变动依赖于降雨量,而不能说降雨量是收成的原因(还谈不上)。从数理逻辑的角度来讲,降雨量只是收成的必要条件,而非充分条件:降雨量对于收成是必要的,但是降雨量不直接导致收成。吃饱了就一定会有效率的干活吗?不一定。但没吃饱肯定不行。把吃没吃饱作为工作是否

3、有效率的原因是不合适的。长城挡住匈奴了吗?没有。但是,如1果没有长城,匈奴会频繁来袭。没有梦想不行,但是仅有梦想是远远不够的。我们常常将必要条件误认为是原因,其实是有区别的。1相关分析随机变量X与Y的Pearson简单相关系数(Pearson’sproductmomentcorrelationcoefficient):nX1Y1XXYYXXYYiiri1,其中,XX2,YY2XXYYnn22XXiiYYii11XnYnn1XXYYiin1i1

4、XY11nn22XYXXiiYYnn11ii11nXYnXYiii11,1(WHY?)nn2222XniiXYnYii11r0意味着X与Y不存在线性相关关系;r0意味着X与Y存在正的线性相关关系,即X与Y同向变动,X增加(减少)的同时Y也增加(减小)。注释1:相关可以是线性的,也可以是非线性的,比如2yx和yx,其中x3,2,1,0,1,2,3,X与Y完全相关,但是计算Pearson简单相关系数几乎为零。这是因为Pearson简单相关系数测量的是“线性相关”(WHY?cosθ)。tryx>0注释

5、2:根据变量的不同类型,相关性的测度方法也是有区别的,如,(1)连续变量对应的是Pearson简单相关系数(线性相关)。(2)定序变量对应的是秩相关,包括Spearman’sρ和Kendall’sτ等秩相关;其中,Spearman’sρ倾向于比Kendall’sτ大(绝对值),但二者的结论一般情况下是一致的。(3)分类变量对应的是列联分析(contingencyanalysis)中的卡方独立性检验,以及衡量相关程度的三类相关系数φ、C、V,还有相应分析、Log-linearmodel中的等(见列联分析)。但是分类变量只涉及相关程度的大小,并不涉及方向(正或负相关)。WHY?

6、1Forasthebodywithoutthespiritisdead,sofaithwithoutworksisdeadalso.(雅各书2:26)身体没有灵魂是死的,信心没有行为也是死的。(4)定量变量与分类变量之间的相关关系如何衡量?方差分析。(注意,方差分析重在解释,无法代入自变量进行预测,因为它本质上是一个假设检验)(5)变量太多?关联规则。注释3:r是一个随机变量(统计量),其分布依赖于XY,的联合分布。当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布。特别地,当总体相关系数R在0附近时,r的抽样分布趋于正态分布的趋势非常明显。而当R离0较远时

7、,除非n非常大,否则r的抽样分布呈现一定的偏态(当R为较大的正值时,r呈现左偏分布;当R为较大的负值时,r呈现右偏分布)。这说明,r的抽样分布有赖于正态总体的假定,同时r的抽样分布会随总体相关系数和样本容量而改变。H0:H1:0n2tr~t(n2)21r注释4:r并不是一个稳健的统计量,容易受异常值干扰。Spearman‘rho和Kendall’tau等秩相关仅使用数据的序,故更稳健。注释5:变量之间的相关关系可能是“伪造的”:(1)经济时间序列往往表现出一定共向性(经济繁荣时所有经济

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。