数据的初步整理——统计图表教程文件.ppt

数据的初步整理——统计图表教程文件.ppt

ID:61278385

大小:217.50 KB

页数:22页

时间:2021-01-23

数据的初步整理——统计图表教程文件.ppt_第1页
数据的初步整理——统计图表教程文件.ppt_第2页
数据的初步整理——统计图表教程文件.ppt_第3页
数据的初步整理——统计图表教程文件.ppt_第4页
数据的初步整理——统计图表教程文件.ppt_第5页
资源描述:

《数据的初步整理——统计图表教程文件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据的初步整理——统计图表第一节  范畴型数据的整理在语言研究中经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章“称名变量”)。对于范畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。例如,我们从学生的英语作业中收集到90个错误,经分析,其中30个是由汉语干扰造成的,25个是由过度概括造成的,个是个是由教学方法不当造成的,20个是由教学方法不当造成的,15个是由其它原因造成的。此数据可以整理

2、如下表(相对次数也可以加括号放在次数之后):该数据也可以用条线图进行更直观的表示:坐标中横坐标代表范畴或类别,纵坐标代表每个类别的观察次数。第二节  数值型数据的整理语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。一、原始数据下面一组数据为一篇

3、英语阅读材料中100个句子的长度数据(以音节数表示):表2.2(a)100个英语句子的长度值﹡29403658202344184718221713121120219146268172427916281222215644263521551750404820141217102524201818192015262316181224124034261337192222481723141613101917916121391619191410111616158815153944512958292117135628201712552720161251262016

4、1250262016124826201612482619161247251916114424191611442419151044241915104023181510402318159402318149392218149372218149362217148352217138342117138292117136表2.2(b)100个句子的长度(按数值大小排列)对于这样数值数目较大的数据,按表2.2(a)列举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。如果像表2.2(b)按照数值的大小顺序列举,数据的条理性和清晰性就可以大大提高。表2.2(

5、b)看起来比表2.2(a)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,等等。二、次数分布表尽管通过排序,数据的条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。1.未分组与分组次数分布表

6、次数分布表示数据的散布情况,而次数分布表则是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下:表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最高(7)的长度是16,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。2.编制分组次数分布表的方法编制分组次数分布表的关键是确定组距和组数。具体方法如下

7、:(1)求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得全距。(2)求组距:组距也叫做分组区间,指每组中最高数值(成为“上限”)与最低数值(成为“下限”)之间的距离,常用符号i表示,为了便于计算分组区间和组中点。各组组距应尽量相等。常用组距一般为2,3,5,10等,但最好取单数,这样便于定组中点。为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计算K=1.87(N-1)2/5(2.1)式中K——组数(取近似整数)N——数据中数值的个数(3)确定具体分组区

8、间:各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和最低一组应能分别包含数据中的最大值和最小值。而且最高组

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。