语言统计第二章数据的初步整理-统计图表

语言统计第二章数据的初步整理-统计图表

ID:43525150

大小:303.00 KB

页数:22页

时间:2019-10-09

语言统计第二章数据的初步整理-统计图表_第1页
语言统计第二章数据的初步整理-统计图表_第2页
语言统计第二章数据的初步整理-统计图表_第3页
语言统计第二章数据的初步整理-统计图表_第4页
语言统计第二章数据的初步整理-统计图表_第5页
资源描述:

《语言统计第二章数据的初步整理-统计图表》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章数据的初步整理——统计图表第一节范畴型数据的整理第二节数值型数据的整理一、原始数据二、次数分布表三、次数分布图同任何研究一样,语言研究的目的是为了探讨和说明问题,以便深入地了解事物或现象的本质及其相互关系,而对数据的统计分析是实现这一目的的重要一环。对原始数据进行整理的基本方法之一是编制统计图表。统计表把被说明的事物及有关统计数字分门别类地整齐地表示出来,简洁明了,易于比较分析;统计图则使数据的突出特征具体、形象、直观、生动地展示出来,易于理解,且印象深刻。因而,图表的适当应用可以起到去粗取精、化繁为简的作用

2、。第一节  范畴型数据的整理在语言研究中经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章“称名变量”)。对于范畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。例如,我们从学生的英语作业中收集到90个错误,经分析,其中30个是由汉语干扰造成的,25个是由过度概括造成的,个是个是由教学方法不当造成的,20个是由教学方法不当造成的,15个是由其它原因造成的。此数

3、据可以整理如下表(相对次数也可以加括号放在次数之后):该数据也可以用条线图进行更直观的表示:坐标中横坐标代表范畴或类别,纵坐标代表每个类别的观察次数。第二节  数值型数据的整理语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以及数值之

4、间的差异程度。一、原始数据下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示):表2.2(a)100个英语句子的长度值﹡29403658202344184718221713121120219146268172427916281222215644263521551750404820141217102524201818192015262316181224124034261337192222481723141613101917916121391619191410111616158815153944512

5、9582921171356282017125527201612512620161250262016124826201612482619161247251916114424191611442419151044241915104023181510402318159402318149392218149372218149362217148352217138342117138292117136表2.2(b)100个句子的长度(按数值大小排列)对于这样数值数目较大的数据,按表2.2(a)列举,其用处是很有限的,因为它杂乱无序,

6、难以获得有价值的信息。如果像表2.2(b)按照数值的大小顺序列举,数据的条理性和清晰性就可以大大提高。表2.2(b)看起来比表2.2(a)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,等等。二、次数分布表尽管通过排序,数据的条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现的,如果

7、把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。1.未分组与分组次数分布表次数分布表示数据的散布情况,而次数分布表则是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下:表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最

8、高(7)的长度是16,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。2.编制分组次数分布表的方法编制分组次数分布表的关键是确定组距和组数。具体方法如下:(1)求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得全距。(2)求组距:组距也叫做分组区间,指每组中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。