数据的初步分析r软

数据的初步分析r软

ID:23092428

大小:79.74 KB

页数:19页

时间:2018-11-04

数据的初步分析r软_第1页
数据的初步分析r软_第2页
数据的初步分析r软_第3页
数据的初步分析r软_第4页
数据的初步分析r软_第5页
资源描述:

《数据的初步分析r软》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第一章数据的初步分析一个数据可能有很多变量和观测值,这些变量和观测值可以通过一些简单的表格、图形以及少数的特征统计量来进行描述。这些方法在统计学中称为描述性统计分析方法,其目的在于帮助我们整理、展示数据,使得我们可以了解数据的特征,进而为进一步的统计推断做好准备。通过计算机软件做数据的描述性分析,可以使我们更加直观、便捷地了解数据特征,有利于对统计描述的理解。本章的实验重点是介绍如何运用R软件来对数据进行描述性分析,并掌握描述性统计的基本方法和概念。实验一数据的统计量描述一、实验目的初步了解数据的特点、分布形状;熟悉R软件

2、的程序结构;学会使用R软件计算数据的描述统计量。二、实验内容掌握通过R软件读入或输入数据,并能够计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。三、准备知识1.位置的度量所谓位置的度量就是那些用来描述数据集中趋势的统计量。常用的有均值、众数、中位数、百分位数等。平均数(Mean):中位数(Median):一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数,即me=xn+12当n为奇数时12xn2+xn2+1当n为偶数时中位数描述的是数据的中心位置不受数据分布的影响,具有稳健

3、性,是数据分析中相当重要的统计量。众数(Mode):在一组数据中,出现次数最多的那个数据。百分位数:百分位数是中位数的推广。将数据按从小到大排序后,对于0≤p<1,它的分位点定义为mp=xnp+1当np不是整数时12x(np)+x(np+1)当n是整数时其中[np]为np的整数部分。1.离散趋势度量表示数据分散或变异程度的特征统计量,常用的有方差、标准差、变异系数等样本方差(SampleVariance):描述数据取值分散性的一个度量,即样本标准差(StandardDeviation):样本方差的开方,即变异系数(CV):

4、变异系数是刻画数据相对分散性的一种度量CV=100×sx(%)是一个无量纲的量,用百分数表示。2.分布形状的度量数据分布形状的度量包括偏度系数和峰度系数。偏度系数:计算公式为g1=nn-1n-2s3i=1n(xi-x)3=n2μ3n-1(n-2)s3s是标准差,μ3是样本三阶中心矩,即μ3=1ni=1n(xi-x)3.偏度系数是刻画数据的对称性指标。关于均值对称的数据偏度系数为0.数据左偏时,对称系数为正,右偏时为负。峰度系数:计算公式g2=n(n+1n-1n-2(n-3)s4i=1n(xi-x)4-3(n-1)2n-2(

5、n-3)=n2(n+1)μ4n-1n-2(n-3)s4-3(n-1)2n-2(n-3)s是标准差,μ4是样本四阶中心矩,即μ3=1ni=1n(xi-x)4.来自正态总体的数据峰度近似为0;如果样本数据的峰度大于0,则该数据的总体分布比正太分布的尾部更分散;如果一个样本数据的峰度小于0,则总体分布较正太分布更集中。一、实验背景某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。1077368977679945998577998636566627986687464797879778689

6、767485927888771038863688881747085616581756294719361656292656466837078666694776366756876617177919675647672778171859959929462687285678780849369768975738154657180848862616182659863716211665887380687889725869827264737590628971717470858483639268816279837081777284675958

7、73837376907871101784359677465828679746686968977608784757751456310259778368726792898296计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。二、实验过程1.读入数据。首先通过R软件中的read.table()命令来读入实验数据(也可以通过函数scan()来读入数据)。以本实验为例,我们假定数据的存储路径为:I:非参数实验教材教材第一章描述性统计分析,数据名称为”测试.txt”,则具体读入过程如下:>x<-r

8、ead.table("I:\非参数实验教材\教材\第一章描述性统计分析\测试.txt")>x=t(x)2.均值。读入数据后,可以通过”mean()”这一函数求数据的均值,记为x.mean,过程如下:>x.mean=mean(x);x.mean[1]76.053.数据排序。在R软件中,对原始数据进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。