1、到去粗取精、化繁为简的作用。第一节范畴型数据的整理 在语言研究中在语言研究中 经常要把研究对象(人、反应、语经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章范畴型数据(见第一章“称名变量称名变量”)。对于范)。对于范畴型数据的整理,主要是进行分类并计算出每一畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。百分比)
2、,最后以表和条线图的形式表示出来。例如,我们从学生的英语作业中收集到例如,我们从学生的英语作业中收集到9090个错个错误,经分析,其中误,经分析,其中3030个是由汉语干扰造成的,个是由汉语干扰造成的,2525个是由过度概括造成的个是由过度概括造成的 ,个是个是由教学方,个是个是由教学方法不当造成的,法不当造成的,2020个是由教学方法不当造成的,个是由教学方法不当造成的,1515个是由其它原因造成的。此数据可以整理如个是由其它原因造成的。此数据可以整理如下表(相对次数也可以加括号放在次数之后):下表(相对次数也可以加括号放在次数之后):该数据也可以用条线图进行更直观的表示:坐标中横坐标代表范
3、畴或类别,纵坐标代表每个类别的观察次数。第二节数值型数据的整理 语言研究中更经常遇到的是数值型数据,譬如考语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数试分数、句子阅读时间、每句单词数等。如果数据量很小(譬如只有几个数值),把它列举出来据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋
4、势及离中趋数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。及数值之间的差异程度。一、原始数据 下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示):表表2.22.2(a a)100100个英语句子的长度值个英语句子的长度值29 40 36 58 20 23 44 18 47 1822 17 13 12 11 20 21 9 14 6 26 8 17 24 27 9 16 28 12 2221 56 44 26 35 21 55 17 50 4048 20 14 12 17 10
5、 25 24 20 1818 19 20 15 26 23 16 18 12 24 12 40 34 26 13 37 19 22 22 4817 23 14 16 13 10 19 17 9 1612 13 9 16 19 19 14 10 11 1616 15 8 8 15 15 39 44 51 29 58 29 21 17 1358 29 21 17 13 56 28 20 17 12 56 28 20 17 12 55 27 20 16 12 55 27 20 16 12 51 26 20 16 12 51 26 20 16 12 50 26 20 16 12 50 26 20 16
6、 12 48 26 20 16 12 48 26 20 16 12 48 26 19 16 12 48 26 19 16 12 47 25 19 16 11 47 25 19 16 11 44 24 19 16 11 44 24 19 16 11 44 24 19 15 10 44 24 19 15 10 44 24 19 15 10 44 24 19 15 10 40 23 18 15 10 40 23 18 15 10 40 23 18 15 9 40 23 18 15 9 40 23 18 14 9 40 23 18 14 9 39 22 18 14 9 39 22 18 14 9 37
7、 22 18 14 9 37 22 18 14 9 36 22 17 14 8 36 22 17 14 8 35 22 17 13 8 35 22 17 13 8 34 21 17 13 8 34 21 17 13 8 29 21 17 13 6 29 21 17 13 6表 2.2(b)100个句子的长度(按数值大小排列)对于这样数值数目较大的数据,按表对于这样数值数目较大的数据,按表2.22.2(a a)列)列举,其用处是很有限的,因为它杂乱无序,难以举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。如果像获得有价值的信息。如果像表 2.2(b)按照数值按照数值的大小顺序列举,数
8、据的条理性和清晰性就可以的大小顺序列举,数据的条理性和清晰性就可以大大提高。大大提高。表表2.2(b)看起来比表看起来比表2.22.2(a a)清晰多了,稍加)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,子出现次数比较多(大体表示数据的集中情况,等等。等等。二、次数分布表 尽管通过排序,数据的条理性有所提高,但是表尽管通过排序,数据的
9、条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。从仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。缩,使其更加条理化。1.未分组与分组次数分布表 次数分布表示数据的散布情况,而次数分布表则次数分布表示数据的散布情况,
10、而次数分布表则是对数据进行初步整理的重要手段,它能较为直是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下:长度数据的次数分布表如下:表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最高(7)的长度是1
11、6,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。2.编制分组次数分布表的方法 编制分组次数分布表的关键是确定组距和组数。编制分组次数分布表的关键是确定组距和组数。具体方法如下:(1 1)求全距或两极差:全距是指一组数据中最大数)求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得大数值与最小数值,然后从前者减去后者,即得全距。全距。(2 2)求组距:组距也叫做分组区间,指每组中最高)求组距:组距也叫做分组区间,指每组中最高数值(成为数值(成为“上限上
12、限”)与最低数值(成为)与最低数值(成为“下限下限”)之间的距离,常用符号)之间的距离,常用符号i i表示,为了便于计算表示,为了便于计算分组区间和组中点。各组组距应尽量相等。常用分组区间和组中点。常用组距一般为组距一般为2 2,3 3,5 5,1010等,但最好取单数,这样等,但最好取单数,这样便于定组中点。为了能确定一个最佳的组数,当便于定组中点。为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计数据的总体分布为正态时,可以用下面的公式计算算K=1.87(N-1)K=1.87(N-1)2/5 (2.1)式中 K组数(取近似整数)N数据中数值的个数(3)确定具体分组区间:
13、各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和最低一组应能分别包含数据中的最大值和最小值。而且最高组或最低组的下限最好只组距的整数倍。分组区间列出后,要找出组中点,方法:上限与下限之和除以2,或每组下限加组距之半。例如1015这一分组区间的组中点为(10+15)/2=12.5,或10+5/2=12.5。(4 4)登记次数:这一步需注意两点:一是每组的精)登记次数:一是每组的精确上下限,这样才能处于组限的数据(尤其是含确上下限,这样才能处于组限的数据(尤其是含有小数的数值)归入适当的组别;二是要防止漏有小数的数值)归入适当的组别;二是要防止漏登或重复登记等讹误。登或重复登记等讹
14、误。(5 5)计算次数:全部数据登记完毕,数一数每个分)计算次数:全部数据登记完毕,数一数每个分组区间内数值的个数,即得出各组的次数,然后组区间内数值的个数,即得出各组的次数,然后把各组次数相加,就得出总次数。通常用字母把各组次数相加,就得出总次数。通常用字母f f来来表示次数,那么总次数就为表示次数,那么总次数就为 ,等于数据中数值,等于数据中数值的的总个数的的总个数N N。还可在各组次数的基础上进一步。还可在各组次数的基础上进一步计算相对次数、累计次数和相对累积次数。计算相对次数、累计次数和相对累积次数。三、次数分布图 如果用统计图来表示数据的次数分布,则更加直如果用统计图来表示数据的次数分布,则更加直观清楚。比较常用的统计图有次数分布直方图和观清楚。比较常用的统计图有次数分布直方图和次数分布多边图。这两种图都是用面积来表示数次数分布多边图。这两种图都是用面积来表示数据的分布。据的分布。1.1.次数分布直方图次数分布直方图 分组数据的次数分布直方图的绘制方法如下:分组数据的次数分布直方图的绘制方法如下:(1 1)画一个直角坐标系,在横坐标上标明各分组)画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。分组区间一般有两区间,在纵坐标上标出次数。分组区间一般有两种标示方法:一种是标出各组的下限;另一种是种标示方法:另一种是标出各组的组中点。标出各
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1