第四章
1.对一组数据离中趋势进行度量的差异量数有哪些?
各自的意义是怎样的?
(填空、选择)
全距、四分位差、百分位差、平均差、标准差和方差等。
2.平均差、方差及标准差的计算公式(每一个数据都参与运算)。
(填空、选择、计算)
平均差计算公式:
样本方差的计算公式:
样本标准差的计算公式:
3.方差与标准差的性质与意义。
(选择、填空、简答)
方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。
标准差是一组数据方差的平方根,具有一些特性。
●标准差的性质:
Ø
每一个观测数据加上一个相同常数C之后,计算到的标准差等于原标准差。
若Yi=Xi+C则有
Ø每一个观测数据乘以一个相同常数C之后,则所得标准差等于原标准差乘以这个常数。
若Yi=Xi×C则有
Ø
每一个观测值都乘以同一个常数C(C≠0),再加上一个常数d,所得的标准差等于原标准差乘以这个常数C。
若Yi=Xi×C+d(C≠0)则有
●方差与标准差的意义
(1)方差与标准差是表示一组数据离散程度的最好指标。
其值越大,说明次数分布的离散程度越大,该组数据较分散;
其值越小,说明次数分布的数据比较集中,离散程度越小。
(2)优点:
反应灵敏;计算公式严密;容易计算;适合代数运算;受抽样变动小;简单明了。
(3)在正态分布中,可确定平均数上下几个标准差内的数据个数。
(1-1/h2)
4.标准差的应用(差异系数,标准分数与异常值的取舍)。
(选择、填空、简答、计算)
一、差异系数
●标准差:
绝对差异量数
对同一特质使用同一观测工具进行测量,所测样本水平比较接近时,可直接比较标准差大小
●差异系数(coefficientofvariation),又称变异系数、相对标准差等,它是一种相对差异量,用CV来表示。
差异系数应用于
①同一团体不同观测值之间离散程度的比较。
②对于水平差异较大,但进行的是同一种观测的各种团体
二、标准分数
标准分数(standardscore),又称基分数或Z分数(Z-score),是以均值为参照点,以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
4.积差相关的计算的前提条件。
(选择、填空、简答)
积差相关的适用条件:
●成对数据,样本容量要大(>30);
●两变量来自的总体均为正态分布;
●两个变量都是连续数据/测量数据;
●两变量之间为线性关系:
可根据相关散布图判断。
5.积差相关的计算公式。
(填空、选择、计算)
6.斯皮尔曼(二列)与肯德尔(多列)等级相关的适用数据类型。
(选择、填空)
●斯皮尔曼(二列)等级相关适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。
●肯德尔和谐系数常以W表示,适用于多列等级变量相关程度的分析。
Ø肯德尔和谐系数可以反映多个等级变量变化的一致性。
●肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。
7.质与量相关的数据类型及具体的相关类别。
(选择、填空)
●一列为等比或等距的测量数据,另一列按性质划分的类别
●质量相关包括点二列相关、二列相关和多系列相关。
8.点二列、二列与多列相关的适用数据资料。
(选择、填空)
一、点二列相关
适用资料:
一列变量为等距或等比数据,且其总体分布为正态,另一列变量为二分称名变量。
二、二列相关
适用资料:
一列变量为等距或等比数据,另一列变量为人为划分二分变量,且两列变量数据的总体分布均为正态。
三、多列相关
适用资料:
适合处理两列正态分布变量,一列为等比或等距的测量数据;另一列变量被人为地划分为多种类别。
9.相关系数值的解释。
(选择、填空、简答)
●相关系数表示两个变量之间的关系程度,不是等距的测量值,只能说绝对值大者比小的相关更密切一些。
●.相关系数的大小表示关系密切程度,正负号表示方向。
●两变量之间的关系可能受到第三方影响
●相关关系不等于因果关系
出现相关原因:
X引起Y;Y引起X;X、Y同时受另一变量影响
第六章概率分布
1.概率、后验概率与先验概率的界定。
(名词解释)
●概率(probability)是表示随机事件出现可能性大小的客观指标。
●后验概率(或统计概率):
通过对随机事件的观测和试验得到的概率
●先验概率(古典概率):
在特殊情况下直接计算的比值,是真实的概率而不是估计值。
2.概率的基本性质。
(选择、填空、计算)
(一)概率的公理系统
●任何随机事件A的概率都是在0与1之间的正数,即0≤P(A)≤1
●必然事件的概率等于1,即P(A)=1
●不可能事件的概率等于零,即P(A)=0
(二)概率的加法定理
●在一次实验或调查中,若事件A发生,则事件B就一定不发生,这样的两个事件为互不相容事件。
●
两个互不相容事件之和的概率,等于这两个事件概率之和
(三)概率的乘法定理
适用于几种情况组合的概率,即几种事件同时发生的情况
●若事件A发生不影响事件B是否发生,这样的两个事件为互相独立事件。
●
两个互相独立事件同时出现的概率,等于这两个事件概率的乘积,即
3.概率分布的界定及类型。
(名词解释)
●概率分布(probabilitydistribution)是指对随机变量取不同值时的概率分布情况的描述,一般用概率分布函数进行描述。
●类型
Ø依随机变量是否取连续数据分类,可将概率分布分为离散型概率分布与连续型概率分布。
Ø依分布函数的来源,可将概率分布分为经验分布与理论分布。
Ø依所描述的数据特征,将概率分布分为基本随机变量分布与抽样分布。
4.正态分布的特征。
(简答)
Ø正态分布的形式是对称的,对称轴是经过平均数的垂线。
Ø正态分布中平均数所对应点最高,然后逐渐向两侧下降。
拐点位于+1s处。
Ø正态曲线下的面积为1,过平均数的垂线左右两部分面积均为0.50。
面积即概率,即值为每一横坐标值的随机变量出现的概率。
Ø正态分布是一族分布。
因平均数与标准差不同有不同的分布形态。
所有正态分布都可以通过Z分数公式非常容易地转换成标准正态分布。
Ø正态分布中各差异系数间有固定比率
Ø标准正态曲线下标准差与概率(面积)有一定的数量关系。
+1s包括68.26%的个体
+1.96s包括95%
+2.58s包括99%
+3s包括99.73%(可疑值取舍的依据)
+4s包括99.99%
5.二项分布的应用——解决含有机遇性质的问题。
(计算)
Ø二项分布函数除了用来求成功事件恰好出现X次的概率之外,在教育中二项分布主要用于解决含有机遇性质的问题
即主要用来判断试验结果是由猜测造成还是真实结果之间的界限。
6.t分布的情况及分布特点。
(简答)
Øt分布是常用的一种随机变量分布,也称为学生氏分布。
Ø
t分布受自由度(df=n-1,即一个统计量中可以自由变化的数目)影响,与总体标准差无关。
Øt分布的特点
●平均数为0,以平均数为中心左右对称分布,左侧t值为负,右侧t值为正。
●形状与正态分布曲线相似,峰态比较高狭,t分布曲线随自由度的变化而变化
●变量取值没有固定范围,-∞—+∞之间。
●样本容量越大(n-1>30),t分布越接近正态分布,方差大于1;当样本容量趋向于无穷大时,t分布为正态分布,方差为1;当n-1<30,t分布与正态分布相差较大,离散程度更大,分布图中间变低尾部变高。
第七章参数估计
1.总体参数估计的界定及类型。
(名词解释)
●根据样本统计量对相应总体参数所作的估计叫作总体参数估计。
●总体参数估计分为点估计和区间估计。
2.点估计与区间估计的界定。
(名词解释)
●由样本的平均数和标准差估计总体的平均数和标准差即为点估计;
●由样本的平均数和标准差估计总体平均数和标准差的取值范围则为区间估计。
3.良好点估计量的标准。
(简答)
●无偏性
如果一切可能个样本统计量的值与总体参数值偏差的平均值为0,这种统计量就是总体参数的无偏估计量。
●有效性
当总体参数不止有一种无偏估计量时,某一种估计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。
●一致性
当样本容量无限增大(大样本)时,估计量的值能越来越接近它所估计的总体参数值,这种估计是总体参数一致性估计量。
●充分性
一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。
4.置信区间、置信水平与显著性水平。
(名词解释)
●置信区间,也称置信间距(confidenceinterval,CI)是指在某一置信度时,总体参数所在的区域距离或区域长度。
●置信度,即置信水平,是作出某种推断时正确的可能性(概率)。
如.95和.99的置信区间。
1-α
●显著性水平是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
5.区间估计的原理。
(简答)
●根据抽样分布理论,用抽样分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。
●置信度为.95和.99,以及相对应的.05与.01的显著性水平是习惯上常用的两个数值,其依据是.05与.01的概率属于小概率事件,小概率事件在一次抽样中是不可能出现的。
●区间估计依据的是该样本统计量的分布规律及样本分布的标准误(SE)。
6.总体平均数估计(正态分布或t分布)。
(简答、计算)
●平均数区间估计的基本原理
Ø通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体(或非正态总体中的n>30的样本),而计算出来的实际平均数是无数容量为n的样本平均数中的一个。
Ø根据样本平均数的分布理论,可以对总体平均数进行估计,并以概率说明其正确的可能性。
Ø因为样本平均数的平均数与母总体的平均数相同(
),因此,对平均数总体的平均数进行估计就是对母总体平均数的估计。
●估计总体平均数的步骤
1.根据样本的数据,计算样本的平均数和标准差;
2.计算平均数抽样分布的标准误;
(1)当总体方差已知时,
(2)当总体方差未知时,
3.确定置信水平或显著性水平;
4.根据样本平均数的抽样分布确定查何种统计表;
总体方差已知时,查正态表,总体方差未知时,查t值表
5.计算置信区间;
6.解释总体平均数的置信区间。
●总体平均数μ的估计
1.当总体已知时,查正态分布表
①总体正态,不管样本容量大小,
②总体非正态,大样本(n>30),
平均数的抽样分布呈正态,总体平均数的置信区间为:
Ø例题:
某小学10岁全体女童身高历年来标准差为6.25厘米,现从该校随机抽27名10岁女童,测得平均身高为134.2厘米,试估计该校10岁全体女童平均身高的95%和99%置信区间。
解:
10岁女童的身高假定是从正态总体中抽出的随机样本,并已知总体标准差为σ=6.25。
无论样本容量大小,一切样本平均数的抽样分布呈正态分布。
于是可用正态分布来估计该校10岁女童身高总体平均数95%和99%的置信区间。
2.总体方差未知,查t分布表
①总体正态,不管样本容量大小,
②总体非正态,大样本(n>30),
平均数的抽样分布为t分布,平均数的置信区间为:
Ø例题:
从某小学三年级随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26。
试估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。
解:
12名学生阅读能力的得分假定是从正态总体中抽出的随机样本,而总体标准差σ未知,样本的容量较小(n=12<30),在此条件下,样本平均数与总体平均数离差统计量服从呈t分布。
于是需用t分布来估计该校三年级学生阅读能力总体平均数95%和99%的置信区间。
3.总体非正态,大样本
平均数的抽样分布接近于正态分布,用正态分布代替t分布近似处理:
Ø例题:
从某年高考中随机抽取102份作文试卷,算得平均分数为26,标准差为1.5,试估计全部考生作文成绩95%和99%的置信区间。
解:
学生高考分数假定是从正态总体中抽出的随机样本,而总体的标准差σ未知,样本平均数与总体平均数离差统计量呈t分布。
但是由于样本容量较大(n=120>30),t分布接近于正态分布,因此可用正态分布近似处理。
第八章假设检验
1.假设检验的概念与原理(小概率事件)。
(名词解释、简答)
●利用样本信息,根据一定概率,对总体参数或分布的某一假设作出拒绝或保留的决断,称为假设检验。
●设立标准的依据:
小概率事件
Ø样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,这时就认为小概率事件发生了。
把出现概率很小的随机事件称为小概率事件。
Ø当概率足够小时,可以作为从实际可能性上,把零假设加以否定的理由。
因为根据这个原理认为:
在随机抽样的条件下,一次实验竟然抽到与总体参数值有这么大差异的样本,可能性是极小的,实际中是罕见的,几乎是不可能的。
2.假设检验中的两类错误及其之间的关系。
(名词解释、简答)
●对于总体参数的假设检验,有可能犯两种类型的错误,即α错误和β错误。
ØⅠ型错误(α错误)意味着当实验处理效应不存在时,研究者却得出结论,处理效应存在。
ØⅡ型错误(β错误)意味着当实验处理效应确实存在时,但是假设检验却没有识别出来。
●两类错误之间的关系
Øα与β是两个前提下的概率;+不等于1
Ø对于固定的n,与一般情况下不能同时减小。
Ø要想减少与,一个方法就是要增大样本容量n。
Ø统计检验力:
1-
3.虚无假设与备择假设。
(名词解释)
ØH0:
零假设,或称原假设、虚无假设(nullhypothesis)、解消假设;是要检验的对象之间没有差异的假设。
ØH1:
备择假设(alternativehypothesis),或称研究假设、对立假设;是与零假设相对立的假设,即存在差异的假设。
4.单侧与双侧检验的确定。
(简答)
略
5.假设检验的步骤。
(简答)
⑴提出假设(虚无假设和备择假设)
⑵确定做出结论的标准(确定显著性水平)
⑶选择检验统计量并计算统计量的值
⑷.做出统计结论
6.平均数的显著性检验(单总体检验)的几种不同情况。
(简答、计算)
⑴.总体为正态,总体标准差σ已知
平均数的抽样分布服从正态分布,以Z为检验统计量,其计算公式为:
⑵.总体为正态,总体标准差σ未知,样本容量小于30
平均数的抽样分布服从t分布,以t为检验统计量,计算公式为:
⑶.总体标准差σ未知,样本容量大于30
平均数的抽样分布服从t分布,但由于样本容量较大,平均数的抽样分布接近于正态分布,因此可以用Z代替t近似处理,计算公式为:
⑷.总体非正态,小样本
不能对总体平均数进行显著性检验。
7.平均数差异的显著性检验(双总体检验)的几种不同情况。
(简答、计算)
Ø平均数差异的显著性检验时,统计量的基本计算公式为:
1.两总体正态,总体标准差已知
总体标准差已知条件下,平均数之差的抽样分布服从正态分布,以Z作为检验统计量,计算公式为:
2.两总体正态,标准差未知,方差齐性,n1或n2小于30
总体标准差未知条件下,平均数之差的抽样分布服从t分布,以t作为检验统计量,计算公式为:
3.两总体非正态,n1和n2大于30(或50)
总体标准差未知条件下,平均数之差的抽样分布服从t分布,但样本容量较大,t分布接近于正态分布,可以以Z近似处理,因此以Z′作为检验统计量,计算公式为:
4.总体非正态,小样本
不能对平均数差异进行显著性检验。
第九章方差分析
1.方差分析的主要功能。
(填空、选择、简答)
Ø方差分析又称为变异分析(analysisofvariance,ANOVA),是由斯内德克提出的一种变量关系的检验方法。
Ø其主要功能在于分析实验数据中不同来源的变异对总变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响。
2.方差分析的基本原理(综合的F检验与方差的可加性)。
(简答)
一、方差分析的基本原理:
综合的F检验
(一)综合虚无假设与部分虚无假设
方差分析通过对多组平均数的差异进行显著性检验,分析实验数据中不同来源的变异对总变异影响的大小。
(二)方差的可分解性
方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量。
因而它所依据的基本原理是变异的可加性。
3.方差分析将总平方和分解为几个不同来源的平方和:
组内平方和(实验误差,包括个体差异)与组间平方和(实验处理效应)。
(简答)
方差分析是将总平方和分解为几个不同来源的平方和(实验数据与平均数离差的平方和)。
然后分别计算不同来源的方差,并计算方差的比值即F值。
根据F值是否显著,对几组数据的差异是否显著作出判断。
4.方差分析的基本假定。
(选择、简答)
⑴总体正态分布
⑵变异的相互独立性,即各实验处理是随机且相互独立的(一般情况下都能满足)
⑶各实验处理内的方差一致(需要进行检验)
5.完全随机设计的方差分析与随机区组设计的方差分析的不同。
(简答)
Ø为了检验某一个因素多种不同水平间差异的显著性,将从同一个总体中随机抽取的被试,再随机地分入各实验组,施以各种不同的实验处理之后,用方差分析法对这多个独立样本平均数差异的显著性进行检验,称为完全随机设计的方差分析。
Ø在对各区组施以多种实验处理之后,用方差分析法对这多个相关样本平均数差异所进行的显著性检验,称为随机区