ImageVerifierCode 换一换
格式:PPT , 页数:22 ,大小:303KB ,
资源ID:15585148      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15585148.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据的初步整理统计图表PPT资料.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据的初步整理统计图表PPT资料.ppt

1、到去粗取精、化繁为简的作用。第一节范畴型数据的整理 在语言研究中在语言研究中 经常要把研究对象(人、反应、语经常要把研究对象(人、反应、语言现象等)按某种标准分成相互排斥的类或范言现象等)按某种标准分成相互排斥的类或范(或者根据多种标准交叉分类),这类数据叫做(或者根据多种标准交叉分类),这类数据叫做范畴型数据(见第一章范畴型数据(见第一章“称名变量称名变量”)。对于范)。对于范畴型数据的整理,主要是进行分类并计算出每一畴型数据的整理,主要是进行分类并计算出每一类的观察次数和相对次数(即在总次数中所占的类的观察次数和相对次数(即在总次数中所占的百分比),最后以表和条线图的形式表示出来。百分比)

2、,最后以表和条线图的形式表示出来。例如,我们从学生的英语作业中收集到例如,我们从学生的英语作业中收集到9090个错个错误,经分析,其中误,经分析,其中3030个是由汉语干扰造成的,个是由汉语干扰造成的,2525个是由过度概括造成的个是由过度概括造成的 ,个是个是由教学方,个是个是由教学方法不当造成的,法不当造成的,2020个是由教学方法不当造成的,个是由教学方法不当造成的,1515个是由其它原因造成的。此数据可以整理如个是由其它原因造成的。此数据可以整理如下表(相对次数也可以加括号放在次数之后):下表(相对次数也可以加括号放在次数之后):该数据也可以用条线图进行更直观的表示:坐标中横坐标代表范

3、畴或类别,纵坐标代表每个类别的观察次数。第二节数值型数据的整理 语言研究中更经常遇到的是数值型数据,譬如考语言研究中更经常遇到的是数值型数据,譬如考试分数、句子阅读时间、每句单词数等。如果数试分数、句子阅读时间、每句单词数等。如果数据量很小(譬如只有几个数值),把它列举出来据量很小(譬如只有几个数值),把它列举出来即可,而不需进行任何整理,但是对于数量较大即可,而不需进行任何整理,但是对于数量较大的数据,则必须利用图表进行初步整理,才能更的数据,则必须利用图表进行初步整理,才能更易看出其中带有规律性的特点,尤其是数据中各易看出其中带有规律性的特点,尤其是数据中各数值的分布情况,譬如数据的集中趋

4、势及离中趋数值的分布情况,譬如数据的集中趋势及离中趋势(详细讨论见第三章),即数据的典型数值以势(详细讨论见第三章),即数据的典型数值以及数值之间的差异程度。及数值之间的差异程度。一、原始数据 下面一组数据为一篇英语阅读材料中100个句子的长度数据(以音节数表示):表表2.22.2(a a)100100个英语句子的长度值个英语句子的长度值29 40 36 58 20 23 44 18 47 1822 17 13 12 11 20 21 9 14 6 26 8 17 24 27 9 16 28 12 2221 56 44 26 35 21 55 17 50 4048 20 14 12 17 10

5、 25 24 20 1818 19 20 15 26 23 16 18 12 24 12 40 34 26 13 37 19 22 22 4817 23 14 16 13 10 19 17 9 1612 13 9 16 19 19 14 10 11 1616 15 8 8 15 15 39 44 51 29 58 29 21 17 1358 29 21 17 13 56 28 20 17 12 56 28 20 17 12 55 27 20 16 12 55 27 20 16 12 51 26 20 16 12 51 26 20 16 12 50 26 20 16 12 50 26 20 16

6、 12 48 26 20 16 12 48 26 20 16 12 48 26 19 16 12 48 26 19 16 12 47 25 19 16 11 47 25 19 16 11 44 24 19 16 11 44 24 19 16 11 44 24 19 15 10 44 24 19 15 10 44 24 19 15 10 44 24 19 15 10 40 23 18 15 10 40 23 18 15 10 40 23 18 15 9 40 23 18 15 9 40 23 18 14 9 40 23 18 14 9 39 22 18 14 9 39 22 18 14 9 37

7、 22 18 14 9 37 22 18 14 9 36 22 17 14 8 36 22 17 14 8 35 22 17 13 8 35 22 17 13 8 34 21 17 13 8 34 21 17 13 8 29 21 17 13 6 29 21 17 13 6表 2.2(b)100个句子的长度(按数值大小排列)对于这样数值数目较大的数据,按表对于这样数值数目较大的数据,按表2.22.2(a a)列)列举,其用处是很有限的,因为它杂乱无序,难以举,其用处是很有限的,因为它杂乱无序,难以获得有价值的信息。如果像获得有价值的信息。如果像表 2.2(b)按照数值按照数值的大小顺序列举,数

8、据的条理性和清晰性就可以的大小顺序列举,数据的条理性和清晰性就可以大大提高。大大提高。表表2.2(b)看起来比表看起来比表2.22.2(a a)清晰多了,稍加)清晰多了,稍加分析就可以看出数据的分布情况,例如,最长句分析就可以看出数据的分布情况,例如,最长句与最短句的长度是多少,二者之间的距离有多大与最短句的长度是多少,二者之间的距离有多大(可粗略表示数据的离散情况),哪些长度的句(可粗略表示数据的离散情况),哪些长度的句子出现次数比较多(大体表示数据的集中情况,子出现次数比较多(大体表示数据的集中情况,等等。等等。二、次数分布表 尽管通过排序,数据的条理性有所提高,但是表尽管通过排序,数据的

9、条理性有所提高,但是表2.2(b)仍然不够简明,不能做到一目了然。从仍然不够简明,不能做到一目了然。从表中可以看出,数据中数值出现的次数或频率是表中可以看出,数据中数值出现的次数或频率是不同的,有的只出现一次,而大部分是重复出现不同的,有的只出现一次,而大部分是重复出现的,如果把重复出现的数值在表中只列举一次,的,如果把重复出现的数值在表中只列举一次,随后标明其出现的次数,就可以把数据进一步压随后标明其出现的次数,就可以把数据进一步压缩,使其更加条理化。这样的表称为次数分布表。缩,使其更加条理化。1.未分组与分组次数分布表 次数分布表示数据的散布情况,而次数分布表则次数分布表示数据的散布情况,

10、而次数分布表则是对数据进行初步整理的重要手段,它能较为直是对数据进行初步整理的重要手段,它能较为直观地表示出数据的分布情况,使人们得以大体上观地表示出数据的分布情况,使人们得以大体上了解数据的平均水平和差异情况等。一般来讲,了解数据的平均水平和差异情况等。一般来讲,次数分布表的最左边一列为各个数值,接下来为次数分布表的最左边一列为各个数值,接下来为登记次数,其次为各数值出现的次数。上述句子登记次数,其次为各数值出现的次数。上述句子长度数据的次数分布表如下:长度数据的次数分布表如下:表2.2(c)不仅清楚地显示出了句子长度的分散范围,而且表明了各长度的句子出现的次数,其中次数最高(7)的长度是1

11、6,其他长度的句子,出现的次数向两边逐渐减少直至1,出现次数较低的句子多为长句。2.编制分组次数分布表的方法 编制分组次数分布表的关键是确定组距和组数。编制分组次数分布表的关键是确定组距和组数。具体方法如下:(1 1)求全距或两极差:全距是指一组数据中最大数)求全距或两极差:全距是指一组数据中最大数值与最小数值之差,因此,只要在数据中找出最值与最小数值之差,因此,只要在数据中找出最大数值与最小数值,然后从前者减去后者,即得大数值与最小数值,然后从前者减去后者,即得全距。全距。(2 2)求组距:组距也叫做分组区间,指每组中最高)求组距:组距也叫做分组区间,指每组中最高数值(成为数值(成为“上限上

12、限”)与最低数值(成为)与最低数值(成为“下限下限”)之间的距离,常用符号)之间的距离,常用符号i i表示,为了便于计算表示,为了便于计算分组区间和组中点。各组组距应尽量相等。常用分组区间和组中点。常用组距一般为组距一般为2 2,3 3,5 5,1010等,但最好取单数,这样等,但最好取单数,这样便于定组中点。为了能确定一个最佳的组数,当便于定组中点。为了能确定一个最佳的组数,当数据的总体分布为正态时,可以用下面的公式计数据的总体分布为正态时,可以用下面的公式计算算K=1.87(N-1)K=1.87(N-1)2/5 (2.1)式中 K组数(取近似整数)N数据中数值的个数(3)确定具体分组区间:

13、各分组区间按照数值的大小,从高到低或从低到高排列均可,最高一组和最低一组应能分别包含数据中的最大值和最小值。而且最高组或最低组的下限最好只组距的整数倍。分组区间列出后,要找出组中点,方法:上限与下限之和除以2,或每组下限加组距之半。例如1015这一分组区间的组中点为(10+15)/2=12.5,或10+5/2=12.5。(4 4)登记次数:这一步需注意两点:一是每组的精)登记次数:一是每组的精确上下限,这样才能处于组限的数据(尤其是含确上下限,这样才能处于组限的数据(尤其是含有小数的数值)归入适当的组别;二是要防止漏有小数的数值)归入适当的组别;二是要防止漏登或重复登记等讹误。登或重复登记等讹

14、误。(5 5)计算次数:全部数据登记完毕,数一数每个分)计算次数:全部数据登记完毕,数一数每个分组区间内数值的个数,即得出各组的次数,然后组区间内数值的个数,即得出各组的次数,然后把各组次数相加,就得出总次数。通常用字母把各组次数相加,就得出总次数。通常用字母f f来来表示次数,那么总次数就为表示次数,那么总次数就为 ,等于数据中数值,等于数据中数值的的总个数的的总个数N N。还可在各组次数的基础上进一步。还可在各组次数的基础上进一步计算相对次数、累计次数和相对累积次数。计算相对次数、累计次数和相对累积次数。三、次数分布图 如果用统计图来表示数据的次数分布,则更加直如果用统计图来表示数据的次数分布,则更加直观清楚。比较常用的统计图有次数分布直方图和观清楚。比较常用的统计图有次数分布直方图和次数分布多边图。这两种图都是用面积来表示数次数分布多边图。这两种图都是用面积来表示数据的分布。据的分布。1.1.次数分布直方图次数分布直方图 分组数据的次数分布直方图的绘制方法如下:分组数据的次数分布直方图的绘制方法如下:(1 1)画一个直角坐标系,在横坐标上标明各分组)画一个直角坐标系,在横坐标上标明各分组区间,在纵坐标上标出次数。分组区间一般有两区间,在纵坐标上标出次数。分组区间一般有两种标示方法:一种是标出各组的下限;另一种是种标示方法:另一种是标出各组的组中点。标出各

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1