现代心理与教育统计学复习资料.docx

资源描述

现代心理与教育统计学复习资料.docx

《现代心理与教育统计学复习资料.docx》由会员分享，可在线阅读，更多相关《现代心理与教育统计学复习资料.docx（36页珍藏版）》请在冰豆网上搜索。

现代心理与教育统计学复习资料.docx

现代心理与教育统计学复习资料

Revisedasof23November2020

现代心理与教育统计学复习资料

1、数据类型

称名数据

计数数据离散型数据

顺序数据

等距数据

测量数据连续型数据

等比数据

2、变量：

是可以取不同值的量。

统计观察的指标都是具有变异的指标。

当我们用一个量表示这个指标的观察结果时，这个指标是一个变量。

用来表示随机现象的变量，称为随机变量。

一般用大写的Ｘ或Ｙ表示随机变量。

随机变量所取得的值，称为观测值。

一个随机变量可以有许多个观测值。

３、需要研究的同质对象的全体，称为总体。

每一个具体研究对象，称为一个个体。

从总体中抽出的用以推测总体的部分对象的集合称为样本。

样本中包含的个体数，称为样本的容量n。

一般把容量n≥30的样本称为大样本；而n＜30的样本称为小样本。

４、统计量和参数

统计指标

统计量

参数

平均数

标准差

相关系数的符号：

“＋”表示正相关，“－”表示负相关。

相关系数不是由相等单位度量而来的，因此只能比较大小，不能做任何加、减、乘、除运算。

二、积差相关

（一）积差相关及其适用条件

皮尔逊积差相关积差相关适用于：

1、两个变量都是连续数据；两变量总体都为正态分布；两变量之间为线性关系。

2、成对数据，样本容量要大。

积差相关条件的判断方法：

连续变量：

根据得到数据的方式判断，测量数据。

正态分布：

一般情况下，正常人群的身高、体重、智力水平、心理与教育测验的结果，都可按总体正态分布对待；如果要求比较高，则需要对数据进行正态性检验。

线性关系：

根据相关散布图可判断两个变量之间是否线性关系。

（二）相关系数的等距转换及其合并

相关系数不是等距数据，更不是比率数据，它只能比较相对大小，不能进行加减乘除运算。

但我们常会遇到需要将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题。

这时，可以先将相关系数r转换成具有等距单位的Zr值。

三、斯皮尔曼等级相关

等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。

（一）斯皮尔曼等级相关的概念及适用条件

斯皮尔曼等级相关是等级相关的一种。

它适用于两个以等级次序表示的变量，并不要求两个变量总体呈正态分布，也不要求样本的容量必须大于30。

当连续数据不能满足计算积差相关的条件时，可以转换成等级数据从而计算斯皮尔曼等级相关系数。

五、质与量的相关

（一）点二列相关适用条件

一个变量为正态、连续变量，另一个变量为真正的二分名义变量，这两个变量之间的相关，称为点二列相关。

有时一个变量并非真正的二分变量，而是双峰分布的变量，也可以用点二列相关来表示。

多用于评价是非类测验题目组成的测验内部一致性。

（二）二列相关

两个变量都是正态连续变量，其中一个变量被人为地划分成二分变量，表示这两个变量之间的相关，称为二列相关。

将连续变量人为划分为二分变量时，应注意尽量使分界点接近平均数。

教育或心理测验中问答题的区分度指标。

六、品质相关

两个变量都是按性质划分成几种类别，表示这两个变量之间的相关称为品质相关。

品质相关处理的一般是计数数据而不是连续数据，变量划分为不同的品质类别,主要用于双向表或称为列联表（R×C表）。

品质相关的方法有多种，最常用的是四分相关、Φ相关和列联表相关。

第六章

一、概率的定义

概率：

表明随机事件可能性大小的客观指标。

概率的两种定义:

后验概率和先验概率。

后验概率（或统计概率）：

随机事件的频率：

当n无限增大时，随机事件A的频率会稳定在一个常数P，这个常数就是随机事件A的概率。

先验概率（古典概率）：

古典概率模型要求满足两个条件：

⑴试验的所有可能结果是有限的；

⑵每一种可能结果出现的可能性相等。

（二）概率的公理系统

1．任何随机事件Ａ的概率都是在0与1之间的正数，即0≤P（A）≤1

2．不可能事件的概率等于零，即P（A）=0

3．必然事件的概率等于1，即P（A）=1

（三）概率分布类型

概率分布是指对随机变量取不同值时的概率的描述，一般用概率分布函数进行描述。

依不同的标准，对概率分布可作不同的分类。

１、离散型分布与连续型分布

依随机变量的类型，可将概率分布分为离散型概率分布与连续型概率分布。

心理与教育统计学中最常用的离散型分布是二项分布，最常用的连续型分布是正态分布。

２、经验分布与理论分布

依分布函数的来源，可将概率分布分为经验分布与理论分布。

经验分布：

是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。

理论分布：

是按某种数学模型计算出的概率分布。

３、基本随机变量分布与抽样分布

依所描述的数据的样本特性，可将概率分布分为基本随机变量分布与抽样分布。

基本随机变量分布是随机变量各种不同取值情况的概率分布，抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。

二、概率分布——正态分布

（一）正态分布特征

正态分布，是连续型随机变量概率分布的一种

1．正态分布曲线函数

正态分布曲线函数又称概率密度函数，其一般公式为：

公式所描述的正态曲线，由σ和μ两个参数决定。

2、正态分布的性质

♦

正态分布是以为中心的对称分配。

♦正态分布有2个参数：

M（平均数）以及s（标准差），其决定了分配的位置及形状。

♦正态分布曲线下面的面积总和等于1。

♦

正态分布在时有一转折点。

♦正态分布曲线的两尾无限延伸。

♦正态分布是一族曲线，标准正态分布是一条曲线。

3、标准正态分布曲线

将标准分数代入正态曲线函数，并且，令σ＝1，则公式变换为标准正态分布函数：

标准正态分布曲线的特点

1曲线在Ｚ＝０处达到最高点⑵．曲线以Ｚ＝０处为中心，双侧对称

⑶．曲线从最高点向左右缓慢下降，向两侧无限延伸，但永不与基线相交。

⑷．标准正态分布曲线的平均数为０，标准差为１。

从Ｚ＝－3至Ｚ＝＋3之间几乎分布着全部数据。

⑸．曲线的拐点为正负一个标准差处。

4、正态分布表的使用已知Z值求概率

⑴．求Ｚ＝0至某一Ｚ值之间的概率：

直接查表

⑵．求两个Ｚ值之间的概率

♦两Ｚ值符号相同：

PZ1－Z2＝PZ2－PZ1

♦两Ｚ值符号相反：

PZ1－Z2＝PZ2＋PZ1

⑶．求某一Z值以上的概率

♦Z＞0时，PZ－∞＝－PZ

♦Z＜0时，PZ－∞＝＋PZ

⑷．求某一Z值以下的概率

♦Z＞0时，P－∞－Z＝＋PZ

♦Z＜0时，P－∞－Z＝－PZ

已知面积（概率）求Z值

⑴．求Z＝0以上或以下某一面积对应的Z值：

直接查表

⑵．求与正态曲线上端或下端某一面积P相对应的Z值：

先用－PZ，再查表

⑶．求与正态曲线下中央部位某一面积相对应的Z值：

先计算P／2，再查表

已知概率Ｐ或Z值，求概率密度Y

⑴．直接查正态分布表就能得到相应的概率密度Ｙ值。

⑵．如果由概率Ｐ求Ｙ值，要注意区分已知概率是位于正态曲线的中间部分，还是两尾端部分，才能通过查表求得正确的概率密度。

三、概率分布——二项分布

（一）二项试验与二项分布二项分布是一种具有广泛用途的离散型随机变量的概率分布

1．二项试验满足以下条件的试验称为二项试验：

♦一次试验只有两种可能的结果，即成功和失败；

♦共有n次试验，并且n是预先给定的任一正整数；

♦各次试验相互独立，即各次试验之间互不影响；

♦各次试验中成功的概率相等，失败的概率也相等。

2．二项分布函数

二项分布是一种离散型随机变量的概率分布。

用n次方的二项展开式来表达在n次二项试验中成功事件出现的不同次数（X＝0，1…）的概率分布，叫做二项分布函数。

二项展开式的通式（即二项分布函数）：

3、二项分布的平均数和标准差

♦如果二项分布满足p＞q且nq≥5（或者p＜q且np≥5时，二项分布接近于正态分布。

可用下面的方法计算二项分布的平均数和标准差。

♦

二项分布的平均数为：

♦二项分布的标准差为：

四、概率分布——样本分布

（一）、抽样分布区分三种不同性质的分布：

♦总体分布：

总体内个体数值的频数分布

♦样本分布：

样本内个体数值的频数分布

♦抽样分布：

某一种统计量的概率分布

1.抽样分布的概念抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。

抽样分布是一个理论的概率分布，是统计推断的依据。

2．平均数抽样分布的几个定理

⑴．从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。

⑵．容量为n的平均数在抽样分布上的标准差（即平均数的标准误），等于总体标准差除以n的平方根。

⑶．从正态总体中，随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。

⑷．虽然总体不呈正态分布，如果样本容量较大，反映总体μ和σ的样本平均数的抽样分布，也接近于正态分布。

（二）标准误

某种统计量在抽样分布上的标准差，称为标准误。

标准误用来衡量抽样误差。

标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。

因此，标准误是统计推断可靠性的指标。

平均数标准误的计算

1．总体正态，σ已知（不管样本容量大小），或总体非正态，σ已知，大样本

平均数的标准误为：

2．总体正态，σ未知（不管样本容量大小），或总体非正态，σ未知，大样本

平均数标准误的估计值为：

（三）平均数离差统计量的分布

1．总体正态，σ已知（不管样本容量大小），或总体非正态，σ已知，大样本

平均数离差的的抽样分布呈正态分布

正态总体，样本平均数的抽样分布

2．总体正态，σ未知（不管样本容量大小），或总体非正态，σ未知，大样本

平均数离差的的抽样分布呈t分布

t分布的特点

⑴．形状与正态分布曲线相似

⑵．t分布曲线随自由度不同而有一簇曲线

⑶．自由度的计算：

自由度是指能够独立变化的数据个数。

⑷．查t分布表时，需根据自由度及相应的显着性水平，并要注意是单侧数据还是双侧。

3．总体σ未知，大样本时的近似处理

样本容量增大后，平均数的抽样分布接近于正态分布，可用正态分布近似处理：

第七章

一、点估计、区间估计与标准误

（一）总体参数估计的基本原理

根据样本统计量对相应总体参数所作的估计叫做总体参数估计。

总体参数估计分为点估计和区间估计。

由样本的标准差估计总体的标准差即为点估计；而由样本的平均数估计总体平均数的取值范围则为区间估计。

（二）点估计

1、良好的点估计量应具备的条件

无偏性：

如果一切可能个样本统计量的值与总体参数值偏差的平均值为0，这种统计量就是总体参数的无偏估计量。

有效性：

当总体参数不止有一种无偏估计量时，某一种估计量的一切可能样本值的方差小者为有效性高，方差大者为有效性低。

一致性：

当样本容量无限增大时，估计量的值能越来越接近它所估计的总体参数值，这种估计是总体参数一致性估计量。

充分性：

一个容量为n的样本统计量,应能充分地反映全部n个数据所反映的总体的信息。

2、点估计量的缺点：

有偏差，没有提供正确估计的概率,即不能提供估计值与参数真值的接近程度和可靠程度

（三）区间估计

区间估计得出的不是一个单一数值，而是一个数值区间。

它既可以告诉我们参数的真值在什么范围内，又能告诉我们参数的真值落在这个范围的概率有多大。

区间估计的基础——抽样分布

根据抽样分布的特点及原理，不同总体条件下，可能会有不同的抽样分布，则可得到不同条件下总体参数的区间估计的计算方法。

区间估计涉及和置信区间和显着性水平。

区间估计

以样本统计量的抽样分布（概率分布）为理论依据，按一定概率的要求，由样本统计量的值估计总体参数值的所在范围，称为总体参数的区间估计。

对总体参数值进行区间估计，就是要在一定可靠度上求出总体参数的置信区间的上下限。

⑴要知道与所要估计的参数相对应的样本统计量的值，以及样本统计量的理论分布；

⑵要求出该种统计量的标准误；

⑶要确定在多大的可靠度上对总体参数作估计，再通过某种理论概率分布表，找出与某种可靠度相对应的该分布横轴上记分的临界值，才能计算出总体参数的置信区间的上下限。

置信区间

置信度，即置信概率，是作出某种推断时正确的可能性（概率）。

置信区间，也称置信间距（confidenceinterval,CI）是指在某一置信度时，总体参数所在的区域距离或区域长度。

置信区间是带有置信概率的取值区间。

显着性水平

对总体平均数进行区间估计时，置信概率表示做出正确推断的可能性，但这种估计还是会有犯错误的可能。

显着性水平（significancelevel）就是指估计总体参数落在某一区间时，可能犯错误的概率，用符号α表示。

　　P＝１-α

2、平均数区间估计的基本原理

通过样本的平均数估计总体的平均数,首先假定该样本是随机取自一个正态分布的母总体（或非正态总体中的n＞30的样本），而计算出来的实际平均数是无数容量为n的样本平均数中的一个。

根据样本平均数的分布理论，可以对总体平均数进行估计，并以概率说明其正确的可能性。

三、总体平均数的估计

（一）总体平均数的区间估计

1．总体平均数区间估计的基本步骤①．根据样本的数据，计算样本的平均数和标准差；

②．计算平均数抽样分布的标准误；③．确定置信概率或显着性水平；

④．根据样本平均数的抽样分布确定查何种统计表；⑤．计算置信区间；

⑥．解释总体平均数的置信区间。

2．平均数区间估计的计算

①总体正态，σ已知（不管样本容量大小），或总体非正态，σ已知，大样本

样本平均数的分布呈正态，平均数的置信区间为：

②总体正态，σ未知（不管样本容量大小），或总体非正态，σ未知，大样本

样本平均数的分布为t分布，平均数的置信区间为：

③总体正态，σ未知，大样本

平均数的抽样分布接近于正态分布，用正态分布代替t分布近似处理：

④总体非正态，小样本

不能进行参数估计，即不能根据样本分布对总体平均数进行估计。

第八章

一、假设检验的原理

利用样本信息，根据一定概率，对总体参数或分布的某一假设作出拒绝或保留的决断，称为假设检验。

1、假设检验一般有两互相对立的假设。

H0：

零假设，或称原假设、虚无假设；是要检验的对象之间没有差异的假设。

H1：

备择假设，或称研究假设、对立假设；是与零假设相对立的假设，即存在差异的假设。

进行假设检验时，一般是从零假设出发，以样本与总体无差异的条件计算统计量的值，并分析计算结果在抽样分布上的概率，根据相应的概率判断应接受零假设、拒绝研究假设还是拒绝零假设、接受研究假设。

2、小概率事件：

样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平，这时就认为小概率事件发生了。

把出现概率很小的随机事件称为小概率事件。

当概率足够小时，可以作为从实际可能性上，把零假设加以否定的理由。

因为根据这个原理认为：

在随机抽样的条件下，一次实验竟然抽到与总体参数值有这么大差异的样本，可能性是极小的，实际中是罕见的，几乎是不可能的。

3、显着性水平

展开阅读全文