论文中数据的统计学问题.doc

论文中数据的统计学问题.doc

ID:49981196

大小:28.50 KB

页数:6页

时间:2020-03-03

论文中数据的统计学问题.doc_第1页
论文中数据的统计学问题.doc_第2页
论文中数据的统计学问题.doc_第3页
论文中数据的统计学问题.doc_第4页
论文中数据的统计学问题.doc_第5页
资源描述:

《论文中数据的统计学问题.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、论文撰写中要注意的统计学问题(转)(一、均值的计算在处理数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,往往我们会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。这是因为作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。至于该采用哪种均值,不能根据主观意愿随意确定,而要根据随机变量的分布特征确定。反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就是其算术平均值。此时,可用算术平均值描述随机变量的大小特征;如果所研究的随机变量不服从正态分布,则

2、算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的几何平均值;如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用中位数来描述变量的大小特征。因此,我们不能在处理数据的时候一律采用算术平均值,而是要视数据的分布情况而定。二、直线相关与回归分析这两种分析,说明的问题是不同的,既相互又联系。在做实际分析的时候,应先做变量的散点图,确认由线性趋势后再进行统计分析。一般先做相关分析

3、,只有在相关分析有统计学意义的前提下,求回归方程才有实际意义。一般来讲,有这么两个问题值得注意:一定要把回归和相关的概念搞清楚,要做回归分析时,不需要报告相关系数;做相关分析的时候,不需要计算回归方程。相关分析中,只有对相关系数进行统计检验(如t检验),P<0.05时,才能一依据r值的大小来说明两个变量的相关程度。必须注意的是,不能将相关系数的假设检验误认为是相关程度的大小。举个例子:当样本数量很小,即使r值较大(如3对数据,r=0.9),也可能得出P>0.05这种无统计学意义的结论;而当样本量很大,如500,即使r=0.1,也会有P<0.05的结果,但这种相关却不具有

4、实际意义。因此,要表明相关性,除了要写出r值外,还应该注明假设检验的P值。三、相关分析和回归分析之间的区别相关分析和回归分析是极为常用的2种数理统计方法,在环境科学及其它研究领域有着广泛的用途。然而,由于这2种数理统计方法在计算方面存在很多相似之处,因此在应用中我们很容易将二者混淆。最常见的错误是,用回归分析的结果解释相关性问题。例如,将“回归直线(曲线)图”称为“相关性图”或“相关关系图”;将回归直线的R2(拟合度,或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。相关分析与回归分析均为研究2个或多

5、个变量间关联性的方法,但2种方法存在本质的差别。相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来预测因变量的值。实际上在相关分析中,两个变量必须都是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。而回归分析中,因变量肯定为随机变量,而自变量则可以是普通变量(有确定的取值)也可以是随机变量。很显然,当自变量为普通变量的时候,这个时候你根本不可能回答相关性的问题;当两个变量均为随机变量的时候,鉴于两个随机变量客观上存在“相关性”问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手

6、段,因此这又回到了问题二中所讲的,如果你要以预测为目的,就不要提相关系数;当你以探索两者的“共变趋势”为目的,就不要提回归方程。回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此我们不能错误地理解R2的含义,认为R2就是“相关系数”或“相关系数的平方”。这是因为,对于自变量是普通变量的时候,2个变量之间的“相关性”概念根本不存在,又谈什么“相关系数”呢?四、相关分析中的问题相关分析中,我们很容易犯这么一个错误,那就是不考虑两个随机变量的分布,直接采用Pearson积矩相关系数描述这2个随机变量间的相关关系(此时描述的是线性相关关系)。关于相关系数,除

7、有Pearson积矩相关系数外,还有Spearman秩相关系数和Kendall秩相关系数等。其中,Pearson积矩相关系数可用于描述2个随机变量的线性相关程度,Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。因此我们必须注意的是,Pearson积矩相关系数的选择是由前提的,那就是2个随机变量均服从正态分布假设。如果数据不服从正态分布,则不能计算Pearson积矩相关系数,这个时候,我们就因该选择Spearman或Kendall秩相关系数。五、t检验 用于比较均值的t检验可以分成三类:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。