教育统计学.docx

上传人:b****8 文档编号:29419852 上传时间:2023-07-23 格式:DOCX 页数:28 大小:197.05KB
下载 相关 举报
教育统计学.docx_第1页
第1页 / 共28页
教育统计学.docx_第2页
第2页 / 共28页
教育统计学.docx_第3页
第3页 / 共28页
教育统计学.docx_第4页
第4页 / 共28页
教育统计学.docx_第5页
第5页 / 共28页
点击查看更多>>
下载资源
资源描述

教育统计学.docx

《教育统计学.docx》由会员分享,可在线阅读,更多相关《教育统计学.docx(28页珍藏版)》请在冰豆网上搜索。

教育统计学.docx

教育统计学

教育统计学

第一章:

概述

一、教育统计学的含义

(一)什么是统计学

A统计学是研究随机现象的数量规律性的一门数学分支。

自然界中有两类现象:

a.确定现象b.随机现象。

随机现象的规律性可用概率论来描述,起源于(法)帕斯卡对赌博现象的研究。

B数理统计学:

以概率论为基础

C应用统计学:

是数理统计学理论在各个学科领域中的应用。

(二)什么是教育统计学

探讨如何将统计学的原理和方法应用于研究教育现象中数量关系的科学。

根据不同功能可划分为:

1.统计设计:

研究如何科学全面地搜集统计数据以确保统计结论的可靠性。

如:

如何进行随机抽样,如何设计实验等。

2.描述统计:

研究如何对搜集到的统计数据进行分析整理,以显示数量关系,如:

计算数据的集中度、离散度等。

3.推断统计:

研究如何利用样本数据来推测和判断未知的总体特征,如总体参数估计、假设检验等。

二、几个基本概念

(一)变量与变量值

A变量:

可以定量并能取不同数值的事物的某种特征。

B变量值:

变量具体的数值如考试的分数、智力水平

C变量的类型:

1 类别变量:

只是用数字来代表事物或对事物进行分类,数字没有任何数值意义。

不能做量化分析,无大小意义,只表明类别。

如性别男1女2

2 顺序变量:

表明类别的大小或某种属性的多少。

主要用于分等论级和分类。

仅表示等级,不表示某种属性的真正量和绝对值。

无参照点(没有绝对零度)和相等单位。

如:

五点评分:

ABCDE

3 等距变量:

存在大小关系,无绝对零点,但存在相对零点。

可进行数学运算、有相等单位。

如IQ

4 比率变量:

有相等单位和绝对零点,可以知道事物之间的某种特点上相差多少及他们之间的倍数关系。

如长度

(二)总体与样本

A总体:

具有某种特征的个体总和例如大学生、中学生、女性、男性,包括有限总体和无限总体。

总体的量化特征称为总体参数。

如总体平均数

B样本:

从总体中抽取的观察对象。

样本容量(>30称为大样本,<30称为小样本),样本的量化特征称为样本统计量,如样本平均数。

(研究分布关系越大越好;研究事物关系越小越好)

第二章:

原始数据的整理

一、次数分布表

(一)分类

1.简单次数分布表:

又称简单频叔分布表,根据不同组别数据出现频数编制而成。

2.相对次数分布表:

又称相对频数分布表,根据不同组别数据出现相对频数编制而成。

3.累积次数分布表:

又称累积频数分布表,根据不同组别数据出现累计频数编制而成。

4.累计相对次数分布表:

又称累计相对频数分布表,根据不同组别数据出现累积相对频数编制而成。

表格一:

某校大一新生英语测验得分次数分布表表格二:

某校大一新生英语测验累计次数分

 

分数

人数

百分比

低于20分

10

3.33

20—39

30

10.00

40—59

40

13.33

60—79

121

40.33

80—100

99

33.00

总和

300

100

分数

累积次数

累计百分比

低于20分

10

3.33

20—39

40

13.33

40—59

80

26.66

60—79

201

66.99

80—100

300

100

总和

300

100

 

(二)次数分布表的制作方法

1.求全距:

全距指的是全部观察值中最大值与最小值之差。

2.决定组数和组距:

a一般不少于5组,也不要超过15组,常见的是10组。

B组距指的是每一个组内包含的距离(用i表示)c斯特奇斯(H.A.Sturges)根据经验公式:

i=Max-Min/1+3.322logN

3决定组限:

组限是每一组的起点值和终点值。

4.登记次数。

(三线表)

二、次数分布图

(一)将次数分布表中的数据以图的形式表现出来。

(二)分类:

1.简单次数分布图——直方图

2.简单次数分布图——折线图

3.累积次数分布图(S形)

4.累积相对次数分布图图一样,纵坐标不一样

第三章:

集中量和差异量

一、集中量:

是代表一组数据典型水平或集中趋势的量

集中量包括:

算数平均数、加权平均数、几何平均数、中位数、众数等。

(一)算数平均数

1.算术平均数是所有观察值的总和除以总频数所得之商,简称为平均数或均数。

①根据原始数据求平均数:

②根据相对次数分布表求平均数

fi---频数xi----组中值

例1:

计算下表计算其算术平均值

表格一:

某校大一新生英语测验得分次数分布表

分数

人数

百分比

低于0分

10

3.33

20—39

30

10.00

40—59

40

13.33

60—79

121

40.33

80—100

99

33.00

总和

300

100

 

2.算术平均数的优缺点:

A优点:

反应灵敏;严密确定,简明易懂,计算方便;适合代数运算;总体平均数的最好估计值。

B缺点:

a易受极端数值的影响b数据中某个数值的大小不够确切或缺失就无法计算。

(二)中位数

1.中位数(Md)是位于一定顺序排列的一组数据中央位置的数值,在这一数值的上、下各有一半的频数分布着。

2.根据次数分布表求中位数

L:

中位数所在组的下限N:

总频数

Nl:

小于中位数所在组下限的频数总和I:

表示组距F:

中位数所在组的频数

例2:

计算例1中数据的中位数

中位数适用于以下情况:

一组数据中有极端数值;

一组数据中有个别数据不确切;

百分位数

百分位数:

一组从小到大排列的数据中某一百分位置所对应数值

例3:

同样是上表,求25%所对应的数值。

(三)众数

众数(Mo)是指一组数据中频数出现最多的那个数。

1.根据原始数据求众数

2.根据次数分布表求众数:

L:

频数最多组的下限fu:

众数所在组上限后一组的频数

Fl:

众数所在组下限前一组的频数

3.主要在以下情况下使用

A当需要快速而粗略地找出一组数据的代表值时

B分析一组频数分布的峰态

算术平均数、中数、众数的关系皮尔逊经验公式:

例4:

试求上表的众数。

(四)加权平均数

加权平均数是不同权重数据的平均数。

Wi:

权重

例5:

期末考试中,数学80,语文92,英语78,其中数学在总分中占40%,语文占40%,英语占20%,其总平均分是多少?

(五)几何平均数

几何平均数,是N个数值连乘积的N次方根,计算公式为:

例6:

某工厂第一年产量为100,第二年产量为120,第三年为132,第四年为156,试求年增长率。

(六)调和平均数

调和平均数:

是N个数值倒数平均数之倒数

计算公式为:

例7:

某学生记30个单词,头十个单词用了五分钟,中间十个单词用了三分钟,最后十个单词用了四分钟,请问每分钟记单词多少个?

二、差异量的计算

差异量用来表示数据变异程度和离散程度,包括全距、平均差、方差、标准差和差异系数等。

(一)全距(=最大值—最小值)

优点:

概念清楚、意义明确、计算简单缺点:

易受极端数值的影响

(二)四分位距:

一组依序排列的数据中间50%数据涵盖的数值范围的一半

QD=(Q3-Q1)/2

Q3=L+i/f*(0.75N-Nl)

Q1=L+i/f*(0.25N-Nl)

(三)平均差:

每一个数据与该组数据中位数(或算术平均数)离差的绝对值的算术平均数。

根据次数分布表

例8:

根据表格一,试求其平均值。

(四)方差(S²)和标准差(S)

A方差指离差平方的算术平均数

根据次数分布表求方差和标准差

例9:

试求表格一的方差。

(五)差异系数:

差异系数是标准差与其算术平均数的百分比。

一般在5%—35%之间。

第四章:

概率分布

一、概率和概率分布

(一)随机现象和随机事件:

随机现象是指存在多种肯能结果且事先无法预料哪种结果会出现的现象。

随机现象的每次发生可称为随机实验,例如:

掷骰子。

随机现象的某些结果组合称为随机事件。

(二)概率:

描述某个随机事件在若干次随机实验中出现可能性的数学概念。

可分为后验概率和先验概率

1.后验概率:

设A为某个随机事件,在N次随机试验中发生Na次,则A的频率为

如果随着N的无限增大,f(A)趋近于某个常数P,那么P为随机事件A的后验概率。

2.先验概率(古典概率):

在满足以下条件时通过理论计算获得的概率

(1)随机试验的结果数目有限

(2)每种结果出现的可能性相同

假设A为某个随机事件,随机实验的所有可能总数为N,A包含的结果数为Na,则

(三)概率分布

①如果随机变量x的可能取值为有限个且以各种确定的概率取这些不同的值,则称X为离散型随机变量(如投掷硬币的结果)

②如果随机变量x的可能取值范围为某范围的任何数值,且在其取值范围内的任一区间中取值的,其概率是确定的,则称x为连续型随机变量(如某学生的考试成绩)

③概率分布是对随机变量的取值与概率之间的关系的描述。

1.离散型随机变量的概率分布:

如果我们将离散型随机变量X的取值记作Xi(i=1,2,3,.....,n)对应的概率记作P,则:

P(a<X<b)=Pi(i=1,2,3,.....,n)称为X的概率分布。

2.连续型随机变量的概率分布

如果我们将连续型的随机变量X的取值范围记作a<X<b,对应的概率记作P,则:

P(a<X<b)=f(x)dx称为X的概率分布。

二、常见概率分布

(一)二项分布

问题:

一个学生全凭猜测答两道是非题,则答对0、1、2题的概率是多大?

解:

2道是非题的情况:

TT、TF、FT、FF3道是非题:

TTT、TFT、TFF、TTF、

FTT、FTF、FFT、FFF

答对2题

答对1题

答对0题

1

2

1

答对3题

答对2题

答对1题

答对0题

1

3

3

1

1.二项试验:

满足以下条件的试验称为二项试验:

(1)一次试验只有两种可能的结果,即成功与失败。

(2)各次试验相互独立,互不影响

(3)各次试验中成功的概率相等。

2.二项分布函数

①在n次二项式验中成功事件出现不同次数(X=0,1,........,n)的概率分布叫做二项分布。

1)当P<Q,且nP≥5,或当P>Q且nP≥5时,二项分布接近正态分布。

2)当n趋于无穷大时,二项分布为正态分布。

3.二项分布的平均数和标准差

当二项分布接近于正态分布时,在n次二项试验中成功事件出现次数的平均数和标准差分别为:

M=np和δ=

(二)正态分布

1.正态分布是应用最广泛的一种连续型随机变量的概率分布

1 函数表达式:

2 函数图形:

2.标准正态分布

1 标准正态分布函数:

其中z=

2 图形:

3.正态分布的应用

1 将原始分数转化成标准分数Z值

例10:

2001年某市公务员选拔考试甲乙二人成绩:

写作

法规

综合

合计

X

Z

X

Z

X

Z

X

Z

87

80

98

265

95

83

88

266

2 确定录取分数线。

例11.某年高考平均分为500,标准差100,考分呈正态分布,某考生得到650分,设当年高考录取率为10%,问该生能否被录取。

例12.某项职业录取考试,在参加的1600人中准备录取200人,考试分数接近正态分布,去年同样考试的平均分数为74分,标准差为11,问今年的分数线会是多少?

3 确定等级评定人数。

例13.如果100人的教育实习成绩呈正态分布,现将其分为优、良、中、合格、不合格五个等距的等级,问各等级应有相应的多少人?

第五章:

总体平均数估计

一、抽样分布

1.三种不同性质的概率分布

1 总体分布:

总体内个体数值的概率分布

2 样本分布:

样本内个体数值的概率分布

3 抽样分布:

样本统计量的概率分布。

2.样本平均数的抽样分布

1 若(X1,X2,......Xn)是抽自总体X的一个样本容量为n的随机样本,则依据样本样本所有可能观察值计算出的样本平均数的分布,称为样本平均数的抽样分布,简称平均数抽样分布。

2 平均数抽样分布的标准差称为平均数的标准差

3 平均数抽样分布的定理

A.平均数抽样分布的平均数等于总体平均数:

B.平均数抽样分布的方差等于总体方差除以样本容量n

C.抽自正态分布总体的样本平均数分布也是一个正态分布

④样本平均数与总体平均数离差统计量的抽样分布

A.当总体方差已知时,为Z分布

B.当总体方差未知时,为T分布

二、总体平均数的估计

(一)总体参数估计(含义:

只用样本统计量来估计相应总体参数)

1.点估计

①用某一样本统计量的值来估计相应总体参数的值。

(例如用某个班级的考试成绩分数平均值作为全年级的总体分数平均值的估计值)

②判断估计量优劣的标准

A.无偏性:

指样本统计量与总体参数的离差平均值为0

B.有效性:

指样本统计量的方差大小

C.一致性:

指样本容量无限增大时,样本统计量趋近于总体参数

③评价:

由于点估计依赖于样本抽样情况,因此可靠性和稳定性较差。

2.区间估计:

以样本统计量的抽样分布为理论依据,按一定概率要求,用样本统计量的值估计总体参数值所在的范围。

(1)总体方差已知:

样本平均数与总体平均数离差统计量呈Z分布

例14.某种零件的长度服从正态分布。

已知总体标准差为1.5cm,从总体中抽取100个零件组成样本,测得它们的平均长度为10.0cm,试估计在96%置信水平下,全部零件平均长度的置信区间。

(2)总体方差未知:

样本平均数与总体平均数离差统计量呈T分布。

例15.某种零件的长度服从正态分布,从总体中抽取30个零件组成样本,测得它们的平均长度为10厘米,标准差为1.5厘米,试估计在95%置信水平下,全部零件平均长度的置信区间。

(3)当样本容量大于30时,T分布接近于正态分布,用Z分布计算。

(二)假设检验

1.指对总体的分布形态或参数做出某种假设,然后根据样本信息,用统计分析方法检验这一假设是否合理,从而做出接受或拒绝这一假设的决定。

假设检验是统计推断的另一种形式,它与区间估计的差别主要在于:

区间估计是用给定的大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。

假设检验分为两类:

一类是参数假设检验;另一类是非参数假设检验。

2.假设基本形式:

H0:

原假设H1:

备择假设

H0:

μ=μ0H1:

μ≠μ0

3.假设检验基本原理

小概率原理:

小概率事件在一次实验中几乎不可能发生。

4.显著性水平

①拒绝零假设的概率称为显著性水平α

②显著性水平和可靠程度(置信水平)之间的关系是:

两者之和为1

(1)总体方差已知:

(2)总体方差未知:

(样本平均数与总体平均数离差统计量呈T分布)

当样本容量大于三十,可按正态分布处理

例16:

某小学历届毕业生汉语拼音测验分数为66分,标准差为10分,现以同样的试题测验应届毕业生(假设应届与历届毕业生条件基本相同)并从中随机抽取25份试卷,算得平均分为69分,问该校应届与历届毕业生汉语拼音测验成绩是否一样?

例17.把例16中已知的历届总体标准差为十分放到抽取的25份试卷的标准差为10分,其余都一样.

例18.在例17的基础上,将抽取的25份试卷改为50份。

统计决断的两种错误

①第一类型错误——α错误:

拒绝了属于真实的零假设。

这种错误的可能性大小正是显著性水平的大小

②第二类型的错误——β错误:

保留了不真实的零假设。

A.对于一定样本容量的n,不能同时做到两类错误的概率都很小。

如果减小α错误,就会增长犯β错误的机会,若减小β错误,也会增大犯α错误的机会。

B.使α、β同时变小的办法就是增大样本容量。

C.一般地说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应当把哪一类错误作为首类控制目标。

但在假设检验中,一般首先控制犯α错误。

第六章:

平均数差异检验

一、样本平均数差异检验假设

H0:

μ1-μ2=0H1:

μ1-μ2≠0

1.样本平均数的分布

①当两个样本所取值的总体呈现正态分布时,样本平均数也呈现正态分布

②当总体标准差已知时,其离差统计量为:

当总体标准差未知时,离差统计量呈现T分布。

二、相关样本平均数差异的显著性检验

不同样本数据之间存在一一对应的关系,例如:

同一群被试接受两次测验

(一)小样本

用差来算:

(二)大样本30以上

例19.某班学生两次智力测验结果,这两次测验的结果有差异么?

学号

得分

学号

得分

1

103

1

107

2

114

2

85

3

129

3

110

4

105

4

94

5

103

5

108

6

97

6

92

7

102

7

113

8

108

8

108

9

102

9

122

10

87

10

107

三、独立样本平均数差异的显著性检验

(一)小样本

1.两个总体方差相同

使用两个样本的联合方差来估计总体方差。

2.两个总体方差不同

临界值求法:

(二)大样本:

T分布近似于正态分布,用Z分布。

例20.在甲乙两个工厂生产的蓄电池中,分别取5个测电容量,数据如下:

甲厂:

143141138142140

乙厂:

141143139144141

假设两个总体方差齐性,问两厂电池的电容量有无显著差异?

例21.从某地区6岁儿童中随机抽取男生30人,平均身高114cm,随机抽取女生27人,平均身高为112.5cm,已知该地区六岁男童身高标准差为5cm,6岁女童身高标准差为6.5cm,请问,该地区6岁儿童身高是否有性别差异?

例22.对某班级25个学生进行英语口语培训。

在培训前和培训后分别进行两次英语口语测试,平均数分别是76和82,标准差分别是12.5和14.3,相关系数为0.65,请问英语口语培训是否有效果?

第七章:

方差分析

一、基本原理:

当存在多个平均数时,比较其差异可采用方差分析

(1)方差分析中的术语

1、因素或处理:

因素是影响因变量变化的条件,即自变量。

2、水平:

因素的不同等级称作水平。

水平值取有限的离散值。

如:

性别中的0,1(男、

女)等。

3、单元:

指各因素不同水平之间组合。

如性别(0,1)和年龄(10,11,12)的六种组合。

(2)基本前提

1、效应的可加性:

各个处理效应以及误差效应是可加的。

2、分布的正态性:

总体呈正态分布

3、方差的同质性:

各处理内方差齐性

(3)方差分析基本原理:

认为不同处理组的均值差异基本来源有两个:

(1)随机误差:

即由不可控的随机因素造成的差异,称为组内差异。

用组内平方和的总和

表示,记作SSw。

(2)实验条件:

即由不同的因素水平造成的差异,称为组间差异。

用组间平方和的总和表

示,记作SSb。

组内SSw、组间SSb除以各自的自由度(组内dfw=n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb:

一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。

另一种情况是处理确实有作用,那么,MSb>>MSw。

MSb/MSw比值构成F分布,用F值与其临界值比较,推断各样本是否来自相同的总体.

F分布(费舍尔分布)

1.从方差相同的两个正态总体中,随机抽取两个独立样本,其方差之比形成F分布

2.方差分析的基本假设

H0:

m组样本均值都相同,即μ1=μ2=....=μm

H1:

至少有两组样本均值不同,即μiμj

 

二、单因素方差分析

1.含义:

只包含一个因素的方差分析

2.假设某单因素实验有k个处理水平,每个水平有n个被试,共有nk个观测值。

3.

方差分析的基本步骤

①总偏差平方和的分解:

总偏差平方和是各观测值与总平均数的离差平方和,记为SST

②总平方和=组间平方和+组内平方和SST=SSb+SSw

③组间平方和反映各处理水平的变异,记作SSb

SSb=

④组内平方和反映各处理水平内的变异即随机误差,记作SSw或SSe

2、计算自由度

 

各部分偏差平方和除以各自的自由度便可得到总均方、处理间均方和处理内均方,分别记为MSt、MSb和MSw。

 

3、进行F检验

训练方法

成绩(xij)

合计

平均

方差

A1

25.6

24.4

25.0

25.9

A2

27.8

27.0

27.0

28.0

A3

27.0

27.7

27.5

25.9

A4

29.0

27.3

27.5

29.9

A5

20.6

21.2

22.0

21.2

例23.在某项技能训练中使用5种训练方法,试验结果见下表,试分析不同训练方法的效果有无差异?

 

三、多因素方差分析

1.包含两个及以上因素的方差分析

2.存在A、B两个因素,A因素分a个水平,B因素分b个水平。

两者交叉搭配形成ab个水平组合。

(下表)

观测值的总变异可以分解为A因素水平间变异、B因素水平间变异、AB交互作用、组内变异。

总平方和

A因素偏差平方和

B因素偏差平方和

组间偏差平方和

误差平方和SSe=SST-SSb

交互平方和SSAB=SSb-SSA-SSB

总自由度dfT=abn-1

组间自由度dfb=ab-1

组内自由度dfw=ab(n-1)

A因素自由度dfA=a-1

B因素自由度dfB=b-1

交互自由度dfAB=dfb-dfA–dfB=(a-1)(b-1)

 

例24.以下是3种教学方法对使用3种不同教材的教学效果影响结果,试作方差分析。

方法(A)

教材(B)

B1

B2

B3

A1

8

7

6

8

7

5

8

6

6

A2

9

7

8

9

9

7

8

6

6

A3

7

8

10

7

7

9

6

8

9

变异来源

平方和

自由度

均方

F值

显著性

A因素

6.23

2

3.12

5.29

*

B因素

1.56

2

0.78

1.32

A×B

22.21

4

5.55

9.41

**

误差

10.67

18

0.59

总变异

40.67

26

 

3.随机区组设计的方差分析

1.把被试分成若干个区组,每个区组内尽可能同质

2.可以把区组变异从组内变异中分离出来

3.SSw=SSr+SSeSSr=

区组自由度dfb=n-1

例25.在某项技能训练中使用5种训法,试验结果下表,试分析不同训练方法的效果有无差异?

训练方法

成绩

合计

平均

方差

A1

25.6

24.4

25.0

25.9

A2

27.8

27.0

27.0

28.0

A3

27.0

27.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 广告传媒

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1