第四章
1.对一组数据离中趋势进行度量的差异量数有哪些?
各自的意义是怎样的?
〔填空、选择〕
全距、四分位差、百分位差、平均差、标准差和方差等。
2.平均差、方差及标准差的计算公式〔每一个数据都参与运算〕。
〔填空、选择、计算〕
平均差计算公式:
样本方差的计算公式:
样本标准差的计算公式:
3.方差与标准差的性质与意义。
〔选择、填空、简答〕
方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。
标准差是一组数据方差的平方根,具有一些特性。
●标准差的性质:
Ø
每一个观测数据加上一个相同常数C之后,计算到的标准差等于原标准差。
假设Yi=Xi+C则有
Ø每一个观测数据乘以一个相同常数C之后,则所得标准差等于原标准差乘以这个常数。
假设Yi=Xi×C则有
Ø
每一个观测值都乘以同一个常数C〔C≠0〕,再加上一个常数d,所得的标准差等于原标准差乘以这个常数C。
假设Yi=Xi×C+d〔C≠0〕则有
●方差与标准差的意义
(1)方差与标准差是表示一组数据离散程度的最好指标。
其值越大,说明次数分布的离散程度越大,该组数据较分散;
其值越小,说明次数分布的数据比拟集中,离散程度越小。
(2)优点:
反响灵敏;计算公式严密;简单计算;合适代数运算;受抽样变动小;简单明了。
(3)在正态分布中,可确定平均数上下几个标准差内的数据个数。
〔1-1/h2〕
4.标准差的应用〔差异系数,标准分数与异常值的取舍〕。
〔选择、填空、简答、计算〕
一、差异系数
●标准差:
绝对差异量数
对同一特质使用同一观测工具进行测量,所测样本水平比拟接近时,可直接比拟标准差大小
●差异系数〔coefficientofvariation〕,又称变异系数、相对标准差等,它是一种相对差异量,用CV来表示。
差异系数应用于
①同一团体不同观测值之间离散程度的比拟。
②对于水平差异较大,但进行的是同一种观测的各种团体
二、标准分数
标准分数〔standardscore〕,又称基分数或Z分数〔Z-score〕,是以均值为参照点,以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
即原始数据在平均数以上或以下几个标准差的位置。
公式:
三、异常值的取舍
⏹三个标准差法则
☐当数据较多时,如果数据值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值舍弃。
☐当数据较少时,需考虑全距与标准差之比,再加以其他处理。
5.标准分数的意义及计算公式。
〔选择、填空、简答、计算〕
*见第4题第二点
标准分数的优点
⏹可比性
⏹可加性
⏹明确性
⏹稳定性
6.标准分数的性质。
〔选择、填空、简答〕
Z分数的性质
⏹Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。
⏹一组原始分数转换得到的Z分数可以为正值,也可以是负值。
☐凡小于平均数的原始分数的Z值为负数,大于平均数的原始分数的Z值为正数,等于平均数的原始分数的Z值为零。
☐全部原始分数的Z分数之和为零,Z分数的平均数也为零。
即∑Z=0,
=0
⏹一组原始数据转换后Z分数的标准差是1,即Sz=1.
⏹假设原始分数成正态分布,则转换得到的全部Z分数的均值为0,标准差为1的标准正态分布〔standardnormaldistribution〕
7.标准分数的应用。
〔选择、填空、简答〕
⏹用于比拟几个分属性质不同的观测值在各自数据分布中相对位置的上下。
☐某学生的身高、体重哪个在班级中位置在前面
⏹计算不同质的观测值的总和或平均值,表示在团体中的相对位置。
☐计算各科的总成绩
⏹表示标准测验分数
Z’=aZ+b
IQ=15Z+100
T=500+100Z
第五章
1.事物之间的关系类型。
〔填空、选择〕
因果关系、共变关系和相关关系。
2.相关的类型。
〔填空、选择〕
正相关、负相关和零相关。
3.散点图的不同形式与不同的相关关系的对应。
〔填空、选择〕
4.积差相关的计算的前提条件。
〔选择、填空、简答〕
积差相关的适用条件:
●成对数据,样本容量要大〔>30〕;
●两变量来自的总体均为正态分布;
●两个变量都是连续数据/测量数据;
●两变量之间为线性关系:
可依据相关散布图推断。
5.积差相关的计算公式。
〔填空、选择、计算〕
6.斯皮尔曼〔二列〕与肯德尔〔多列〕等级相关的适用数据类型。
〔选择、填空〕
●斯皮尔曼〔二列〕等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。
●肯德尔和谐系数常以W表示,适用于多列等级变量相关程度的分析。
Ø肯德尔和谐系数可以反映多个等级变量变化的一致性。
●肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。
7.质与量相关的数据类型及具体的相关类别。
〔选择、填空〕
●一列为等比或等距的测量数据,另一列按性质划分的类别
●质量相关包含点二列相关、二列相关和多系列相关。
8.点二列、二列与多列相关的适用数据资料。
〔选择、填空〕
一、点二列相关
适用资料:
一列变量为等距或等比数据,且其总体分布为正态,另一列变量为二分称名变量。
二、二列相关
适用资料:
一列变量为等距或等比数据,另一列变量为人为划分二分变量,且两列变量数据的总体分布均为正态。
三、多列相关
适用资料:
合适处理两列正态分布变量,一列为等比或等距的测量数据;另一列变量被人为地划分为多种类别。
9.相关系数值的解释。
〔选择、填空、简答〕
●相关系数表示两个变量之间的关系程度,不是等距的测量值,只能说绝对值大者比小的相关更紧密一些。
●.相关系数的大小表示关系紧密程度,正负号表示方向。
●两变量之间的关系可能受到第三方影响
●相关关系不等于因果关系
出现相关原因:
X引起Y;Y引起X;X、Y同时受另一变量影响
第六章概率分布
1.概率、后验概率与先验概率的界定。
〔名词解释〕
●概率〔probability〕是表示随机事件出现可能性大小的客观指标。
●后验概率〔或统计概率〕:
通过对随机事件的观测和试验得到的概率
●先验概率〔古典概率〕:
在特别情况下直接计算的比值,是真实的概率而不是估量值。
2.概率的根本性质。
〔选择、填空、计算〕
〔一〕概率的公理系统
●任何随机事件A的概率都是在0与1之间的正数,即0≤P〔A〕≤1
●必定事件的概率等于1,即P〔A〕=1
●不可能事件的概率等于零,即P〔A〕=0
〔二〕概率的加法定理
●在一次实验或调查中,假设事件A发生,则事件B就肯定不发生,这样的两个事件为互不相容事件。
●
两个互不相容事件之和的概率,等于这两个事件概率之和
〔三〕概率的乘法定理
适用于几种情况组合的概率,即几种事件同时发生的情况
●假设事件A发生不影响事件B是否发生,这样的两个事件为相互独立事件。
●
两个相互独立事件同时出现的概率,等于这两个事件概率的乘积,即
3.概率分布的界定及类型。
〔名词解释〕
●概率分布〔probabilitydistribution〕是指对随机变量取不同值时的概率分布情况的描述,一般用概率分布函数进行描述。
●类型
Ø依随机变量是否取连续数据分类,可将概率分布分为离散型概率分布与连续型概率分布。
Ø依分布函数的来源,可将概率分布分为经验分布与理论分布。
Ø依所描述的数据特征,将概率分布分为根本随机变量分布与抽样分布。
4.正态分布的特征。
〔简答〕
Ø正态分布的形式是对称的,对称轴是经过平均数的垂线。
Ø正态分布中平均数所对应点最高,然后逐渐向两侧下降。
拐点位于+1s处。
Ø正态曲线下的面积为1,过平均数的垂线左右两局部面积均为0.50。
面积即概率,即值为每一横坐标值的随机变量出现的概率。
Ø正态分布是一族分布。
因平均数与标准差不同有不同的分布形态。
全部正态分布都可以通过Z分数公式非常简单地转换成标准正态分布。
Ø正态分布中各差异系数间有固定比率
Ø标准正态曲线下标准差与概率〔面积〕有肯定的数量关系。
+1s包含68.26%的个体
+1.96s包含95%
+2.58s包含99%
+3s包含99.73%(可疑值取舍的依据)
+4s包含99.99%
5.二项分布的应用——解决含有机遇性质的问题。
〔计算〕
Ø二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中二项分布主要用于解决含有机遇性质的问题
即主要用来推断试验结果是由猜想造成还是真实结果之间的界限。
6.t分布的情况及分布特点。
〔简答〕
Øt分布是常用的一种随机变量分布,也称为学生氏分布。
Ø
t分布受自由度〔df=n-1,即一个统计量中可以自由变化的数目〕影响,与总体标准差无关。
Øt分布的特点
●平均数为0,以平均数为中心左右对称分布,左侧t值为负,右侧t值为正。
●形状与正态分布曲线相似,峰态比拟高狭,t分布曲线随自由度的变化而变化
●变量取值没有固定范围,-∞—+∞之间。
●样本容量越大〔n-1>30〕,t分布越接近正态分布,方差大于1;当样本容量趋向于无穷大时,t分布为正态分布,方差为1;当n-1<30,t分布与正态分布相差较大,离散程度更大,分布图中间变低尾部变高。
第七章参数估量
1.总体参数估量的界定及类型。
〔名词解释〕
●依据样本统计量对相应总体参数所作的估量叫作总体参数估量。
●总体参数估量分为点估量和区间估量。
2.点估量与区间估量的界定。
〔名词解释〕
●由样本的平均数和标准差估量总体的平均数和标准差即为点估量;
●由样本的平均数和标准差估量总体平均数和标准差的取值范围则为区间估量。
3.良好点估量量的标准。
〔简答〕
●无偏性
如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估量量。
●有效性
当总体参数不止有一种无偏估量量时,某一种估量量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。
●一致性
当样本容量无限增大〔大样本〕时,估量量的值能越来越接近它所估量的总体参数值,这种估量是总体参数一致性估量量。
●充分性
一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。
4.置信区间、置信水平与显著性水平。
〔名词解释〕
●置信区间,也称置信间距〔confidenceinterval,CI〕是指在某一置信度时,总体参数所在的地域距离或地域长度。
●置信度,即置信水平,是作出某种推断时正确的可能性〔概率〕。
如.95和.99的置信区间。
1-α
●显著性水平是指估量总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
5.区间估量的原理。
〔简答〕
●依据抽样分布理论,用抽样分布的标准误〔SE〕计算区间长度,解释总体参数落入某置信区间可能的概率。
●置信度为.95和.99,以及相对应的.05与.01的显著性水平是习惯上常用的两个数值,其依据是.05与.01的概率属于小概率事件,小概率事件在一次抽样中是不可能出现的。
●区间估量依据的是该样本统计量的分布规律及样本分布的标准误〔SE〕。
6.总体平均数估量〔正态分布或t分布〕。
〔简答、计算〕
●平均数区间估量的根本原理
Ø通过样本的平均数估量总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。
Ø依据样本平均数的分布理论,可以对总体平均数进行估量,并以概率说明其正确的可能性。
Ø因为样本平均数的平均数与母总体的平均数相同〔
〕,因此,对平均数总体的平均数进行估量就是对母总体平均数的估量。
●估量总体平均数的步骤
1.依据样本的数据,计算样本的平均数和标准差;
2.计算平均数抽样分布的标准误;
〔1〕当总体方差已知时,
〔2〕当总体方差未知时,
3.确定置信水平或显著性水平;
4.依据样本平均数的抽样分布确定查何种统计表;
总体方差已知时,查正态表,总体方差未知时,查t值表
5.计算置信区间;
6.解释总体平均数的置信区间。
●总体平均数μ的估量
1.当总体已知时,查正态分布表
①总体正态,不管样本容量大小,
②总体非正态,大样本〔n>30〕,
平均数的抽样分布呈正态,总体平均数的置信区间为:
Ø例题:
某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估量该校10岁全体女童平均身高的95%和99%置信区间。
解:
10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=6.25。
无论样本容量大小,一切样本平均数的抽样分布呈正态分布。
于是可用正态分布来估量该校10岁女童身高总体平均数95%和99%的置信区间。
2.总体方差未知,查t分布表
①总体正态,不管样本容量大小,
②总体非正态,大样本〔n>30〕,
平均数的抽样分布为t分布,平均数的置信区间为:
Ø例题:
从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。
试估量该校三年级学生阅读能力总体平均数95%和99%的置信区间。
解:
12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小〔n=12<30〕,在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。
于是需用t分布来估量该校三年级学生阅读能力总体平均数95%和99%的置信区间。
3.总体非正态,大样本
平均数的抽样分布接近于正态分布,用正态分布替代t分布近似处理:
Ø例题:
从某年高考中随机抽取102份作文卷子,算得平均分数为26,标准差为1.5,试估量全部考生作文成绩95%和99%的置信区间。
解:
学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t分布。
但是由于样本容量较大〔n=120>30〕,t分布接近于正态分布,因此可用正态分布近似处理。
第八章假设检验
1.假设检验的概念与原理〔小概率事件〕。
〔名词解释、简答〕
●利用样本信息,依据肯定概率,对总体参数或分布的某一假设作出拒绝或保存的决断,称为假设检验。
●设立标准的依据:
小概率事件
Ø样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。
把出现概率很小的随机事件称为小概率事件。
Ø当概率足够小时,可以作为从实际可能性上,把零假设加以否认的理由。
因为依据这个原理认为:
在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。
2.假设检验中的两类错误及其之间的关系。
〔名词解释、简答〕
●对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。
ØⅠ型错误〔α错误〕意味着当实验处理效应不存在时,研究者却得出结论,处理效应存在。
ØⅡ型错误〔β错误〕意味着当实验处理效应实在存在时,但是假设检验却没有识别出来。
●两类错误之间的关系
Øα与β是两个前提下的概率;α+β不等于1
Ø对于固定的n,α与β一般情况下不能同时减小。
Ø要想减少α与β,一个方法就是要增大样本容量n。
Ø统计检验力:
1-β
3.虚无假设与备择假设。
〔名词解释〕
ØH0:
零假设,或称原假设、虚无假设〔nullhypothesis〕、解消假设;是要检验的对象之间没有差异的假设。
ØH1:
备择假设〔alternativehypothesis〕,或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。
4.单侧与双侧检验实在定。
〔简答〕
略
5.假设检验的步骤。
〔简答〕
⑴提出假设〔虚无假设和备择假设〕
⑵确定做出结论的标准〔确定显著性水平〕
⑶选择检验统计量并计算统计量的值
⑷.做出统计结论
6.平均数的显著性检验〔单总体检验〕的几种不同情况。
〔简答、计算〕
⑴.总体为正态,总体标准差σ已知
平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为:
⑵.总体为正态,总体标准差σ未知,样本容量小于30
平均数的抽样分布服从t分布,以t为检验统计量,计算公式为:
⑶.总体标准差σ未知,样本容量大于30
平均数的抽样分布服从t分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z替代t近似处理,计算公式为:
⑷.总体非正态,小样本
不能对总体平均数进行显著性检验。
7.平均数差异的显著性检验〔双总体检验〕的几种不同情况。
〔简答、计算〕
Ø平均数差异的显著性检验时,统计量的根本计算公式为:
1.两总体正态,总体标准差已知
总体标准差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为:
2.两总体正态,标准差未知,方差齐性,n1或n2小于30
总体标准差未知条件下,平均数之差的抽样分布服从t分布,以t作为检验统计量,计算公式为:
3.两总体非正态,n1和n2大于30〔或50〕
总体标准差未知条件下,平均数之差的抽样分布服从t分布,但样本容量较大,t分布接近于正态分布,可以以Z近似处理,因此以Z′作为检验统计量,计算公式为:
4.总体非正态,小样本
不能对平均数差异进