stata简单讲义第六讲

stata简单讲义第六讲

ID:33785568

大小:90.50 KB

页数:11页

时间:2019-03-01

stata简单讲义第六讲_第1页
stata简单讲义第六讲_第2页
stata简单讲义第六讲_第3页
stata简单讲义第六讲_第4页
stata简单讲义第六讲_第5页
资源描述:

《stata简单讲义第六讲》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、线性相关和回归赵耐青在实际研究中,经常要考察两个指标之间的关系,即:相关性。现以体重与身高的关系为例,分析两个变量之间的相关性。要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。样本相关系数计算公式(称为Pearson相关系数):(1)1.考察随机模拟相关的情况。显示两个变量相关的散点图程序simur.ado(本教材配套程序,使用见前言)。命令为simur样本量总体相关系数如显示样本量为100,r=0的散点图本例命令为simur1000如显示样本量为200,r=0.8的散

2、点图本例命令为simur2000.8如显示样本量为200,r=0.99的散点图本例命令为simur2000.99如显示样本量为200,r=-0.99的散点图本例命令为simur200-0.99例1.测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:r=0vsH1:r¹0。a=0.05数据格式为XY171.058.0176.069.0175.074.0172.068.0170.064.0173.068.5168.056.0172.054.0170.062.0172.063.

3、0173.067.0168.060.0171.068.0172.076.0173.065.0Stata命令pwcorr变量1变量2…变量m,sig本例命令pwcorrxy,sigpwcorrxy,sig

4、xy-------------+------------------x

5、1.0000

6、

7、y

8、0.59941.0000

9、0.0182

10、Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。注意:Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要

11、求X服从正态分布并且Y服从正态分布。如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。Spearman相关系数的计算基本思想为:用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson相关系数类同。Stata实现spearmanxyNumberofobs=15Spearman'srho=0.6552TestofHo:xandyareindependentProb>

12、t

13、=0.0080stata计算结果与手算的结果一致。结论为身高与体重呈正相关,并且有统计

14、学意义。直线回归例2为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下:60个男孩的身高资料如下年龄3岁4岁5岁6岁7岁8岁身高92.596.5106.0115.5125.5121.597.0101.0104.0115.5117.5128.596.0105.5107.0111.5118.0124.096.5102.0109.5110.0117.0125.597.0105.0111.0114.5122.0122.

15、592.099.5107.5112.5119.0123.596.5102.0107.0116.5119.0120.591.0100.0111.5110.0125.5123.096.0106.5103.0114.5120.5124.099.0100.0109.0110.0122.0126.5平均身高95.4101.8107.6113.1120.6124.0由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:年龄与平均身高的点在一条直线附近。考虑到样本均数存在抽样误差,故有理由认为身高的

16、总体均数与年龄的关系可能是一条直线关系,其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关,所以更正确地标记应为表示在固定年龄情况下的身高总体均数。上述公式称为直线回归方程。其中b为回归系数(regressioncoefficient),或称为斜率(slope);a称为常数项(constant),或称为截距(intercept)。回归系数b表示x变化一个单位y平均变化b个单位。当x和y都是随机的,x、y间呈正相关时b>0,x、y间呈负相关时b<0,x、y间独立时b=0。一般情况而言,参数a和b是未知的。对于本例而言

17、,不同民族和不同地区,a和b往往是不同的,因此需要进行估计的。由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数a和b进行估计。得到样本估计的回归方程二、直线回归方程的建立直线回归分析的Stata实现:数据结构:xy

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。