数据的初步整理统计图表.ppt

上传人:b****2 文档编号:2671089 上传时间:2022-11-06 格式:PPT 页数:22 大小:303KB
下载 相关 举报
数据的初步整理统计图表.ppt_第1页
第1页 / 共22页
数据的初步整理统计图表.ppt_第2页
第2页 / 共22页
数据的初步整理统计图表.ppt_第3页
第3页 / 共22页
数据的初步整理统计图表.ppt_第4页
第4页 / 共22页
数据的初步整理统计图表.ppt_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

数据的初步整理统计图表.ppt

《数据的初步整理统计图表.ppt》由会员分享,可在线阅读,更多相关《数据的初步整理统计图表.ppt(22页珍藏版)》请在冰豆网上搜索。

数据的初步整理统计图表.ppt

第二章数据的初步整理统计图表nn第一节范畴型数据的整理nn第二节数值型数据的整理一、原始数据二、次数分布表三、次数分布图同任何研究一样,语言研究的目的是为了探讨和同任何研究一样,语言研究的目的是为了探讨和说明问题,以便深入地了解事物或现象的本质及说明问题,以便深入地了解事物或现象的本质及其相互关系,而对数据的统计分析是实现这一目其相互关系,而对数据的统计分析是实现这一目的的重要一环。

对原始数据进行整理的基本方法的的重要一环。

对原始数据进行整理的基本方法之一是编制统计图表。

统计表把被说明的事物及之一是编制统计图表。

统计表把被说明的事物及有关统计数字分门别类地整齐地表示出来,简洁有关统计数字分门别类地整齐地表示出来,简洁明了,易于比较分析;统计图则使数据的突出特明了,易于比较分析;统计图则使数据的突出特征具体、形象、直观、生动地展示出来,易于理征具体、形象、直观、生动地展示出来,易于理解,且印象深刻。

因而,图表的适当应用可以起解,且印象深刻。

因而,图表的适当应用可以起到去粗取精、化繁为简的作用。

到去粗取精、化繁为简的作用。

第一节范畴型数据的整理在语言研究中在语言研究中经常要把研究对象(人、反应、语经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章范畴型数据(见第一章“称名变量称名变量”)。

对于范)。

对于范畴型数据的整理,主要是进行分类并计算出每一畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。

百分比),最后以表和条线图的形式表示出来。

例如,我们从学生的英语作业中收集到例如,我们从学生的英语作业中收集到9090个错个错误,经分析,其中误,经分析,其中3030个是由汉语干扰造成的,个是由汉语干扰造成的,2525个是由过度概括造成的个是由过度概括造成的,个是个是由教学方,个是个是由教学方法不当造成的,法不当造成的,2020个是由教学方法不当造成的,个是由教学方法不当造成的,1515个是由其它原因造成的。

此数据可以整理如个是由其它原因造成的。

此数据可以整理如下表(相对次数也可以加括号放在次数之后):

下表(相对次数也可以加括号放在次数之后):

该数据也可以用条线图进行更直观的表示:

坐标中横坐标代表范畴或类别,纵坐标代表每个类别的观察次数。

第二节数值型数据的整理语言研究中更经常遇到的是数值型数据,譬如考语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。

如果数试分数、句子阅读时间、每句单词数等。

如果数据量很小(譬如只有几个数值),把它列举出来据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋势及离中趋数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。

及数值之间的差异程度。

一、原始数据下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示):

表表2.22.2(aa)100100个英语句子的长度值个英语句子的长度值294036582023441847182217131211202191462681724279162812222156442635215517504048201412171025242018181920152623161812241240342613371922224817231416131019179161213916191914101116161588151539445129582921171358292117135628201712562820171255272016125527201612512620161251262016125026201612502620161248262016124826201612482619161248261916124725191611472519161144241916114424191611442419151044241915104424191510442419151040231815104023181510402318159402318159402318149402318149392218149392218149372218149372218149362217148362217148352217138352217138342117138342117138292117136292117136表2.2(b)100个句子的长度(按数值大小排列)对于这样数值数目较大的数据,按表对于这样数值数目较大的数据,按表2.22.2(aa)列)列举,其用处是很有限的,因为它杂乱无序,难以举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。

如果像获得有价值的信息。

如果像表2.2(b)按照数值按照数值的大小顺序列举,数据的条理性和清晰性就可以的大小顺序列举,数据的条理性和清晰性就可以大大提高。

大大提高。

表表2.2(b)看起来比表看起来比表2.22.2(aa)清晰多了,稍加)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,子出现次数比较多(大体表示数据的集中情况,等等。

等等。

二、次数分布表尽管通过排序,数据的条理性有所提高,但是表尽管通过排序,数据的条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。

从仍然不够简明,不能做到一目了然。

从表中可以看出,数据中数值出现的次数或频率是表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。

这样的表称为次数分布表。

缩,使其更加条理化。

这样的表称为次数分布表。

1.未分组与分组次数分布表次数分布表示数据的散布情况,而次数分布表则次数分布表示数据的散布情况,而次数分布表则是对数据进行初步整理的重要手段,它能较为直是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。

一般来讲,了解数据的平均水平和差异情况等。

一般来讲,次数分布表的最左边一列为各个数值,接下来为次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。

上述句子登记次数,其次为各数值出现的次数。

上述句子长度数据的次数分布表如下:

长度数据的次数分布表如下:

表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最高(7)的长度是16,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。

2.编制分组次数分布表的方法编制分组次数分布表的关键是确定组距和组数。

编制分组次数分布表的关键是确定组距和组数。

具体方法如下:

具体方法如下:

(11)求全距或两极差:

全距是指一组数据中最大数)求全距或两极差:

全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得大数值与最小数值,然后从前者减去后者,即得全距。

全距。

(22)求组距:

组距也叫做分组区间,指每组中最高)求组距:

组距也叫做分组区间,指每组中最高数值(成为数值(成为“上限上限”)与最低数值(成为)与最低数值(成为“下限下限”)之间的距离,常用符号)之间的距离,常用符号ii表示,为了便于计算表示,为了便于计算分组区间和组中点。

各组组距应尽量相等。

常用分组区间和组中点。

各组组距应尽量相等。

常用组距一般为组距一般为22,33,55,1010等,但最好取单数,这样等,但最好取单数,这样便于定组中点。

为了能确定一个最佳的组数,当便于定组中点。

为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计数据的总体分布为正态时,可以用下面的公式计算算K=1.87(N-1)K=1.87(N-1)2/5(2.1)式中K组数(取近似整数)N数据中数值的个数(3)确定具体分组区间:

各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和最低一组应能分别包含数据中的最大值和最小值。

而且最高组或最低组的下限最好只组距的整数倍。

分组区间列出后,要找出组中点,方法:

上限与下限之和除以2,或每组下限加组距之半。

例如1015这一分组区间的组中点为(10+15)/2=12.5,或10+5/2=12.5。

(44)登记次数:

这一步需注意两点:

一是每组的精)登记次数:

这一步需注意两点:

一是每组的精确上下限,这样才能处于组限的数据(尤其是含确上下限,这样才能处于组限的数据(尤其是含有小数的数值)归入适当的组别;二是要防止漏有小数的数值)归入适当的组别;二是要防止漏登或重复登记等讹误。

登或重复登记等讹误。

(55)计算次数:

全部数据登记完毕,数一数每个分)计算次数:

全部数据登记完毕,数一数每个分组区间内数值的个数,即得出各组的次数,然后组区间内数值的个数,即得出各组的次数,然后把各组次数相加,就得出总次数。

通常用字母把各组次数相加,就得出总次数。

通常用字母ff来来表示次数,那么总次数就为表示次数,那么总次数就为,等于数据中数值,等于数据中数值的的总个数的的总个数NN。

还可在各组次数的基础上进一步。

还可在各组次数的基础上进一步计算相对次数、累计次数和相对累积次数。

计算相对次数、累计次数和相对累积次数。

三、次数分布图如果用统计图来表示数据的次数分布,则更加直如果用统计图来表示数据的次数分布,则更加直观清楚。

比较常用的统计图有次数分布直方图和观清楚。

比较常用的统计图有次数分布直方图和次数分布多边图。

这两种图都是用面积来表示数次数分布多边图。

这两种图都是用面积来表示数据的分布。

据的分布。

1.1.次数分布直方图次数分布直方图分组数据的次数分布直方图的绘制方法如下:

分组数据的次数分布直方图的绘制方法如下:

(11)画一个直角坐标系,在横坐标上标明各分组)画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。

分组区间一般有两区间,在纵坐标上标出次数。

分组区间一般有两种标示方法:

一种是标出各组的下限;另一种是种标示方法:

一种是标出各组的下限;另一种是标出各组的组中点。

标出各

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1