现代心理与教育统计学复习资料DOC.docx-资源下载

现代心理与教育统计学复习资料DOC.docx

1、现代心理与教育统计学复习资料DOC第一章心理与教育统计学基础知识1、数据类型称名数据计数数据离散型数据顺序数据等距数据测量数据连续型数据比率数据2、变量、随机变量、观测值变量是可以取不同值的量。统计观察的指标都是具有变异的指标。当我们用一个量表示这个指标的观察结果时，这个指标是一个变量。用来表示随机现象的变量，称为随机变量。一般用大写的或表示随机变量。随机变量所取得的值，称为观测值。一个随机变量可以有许多个观测值。、总体、个体和样本需要研究的同质对象的全体，称为总体。每一个具体研究对象，称为一个个体。从总体中抽出的用以推测总体的部分对象的集合称为样本。样本中包含的个体数，称为

2、样本的容量n。一般把容量n 30的样本称为大样本；而n 30的样本称为小样本。、统计量和参数统计指标统计量参数平均数标准差S相关系数r回归系数b5、统计误差误差是测得值与真值之间的差值。测得值真值误差统计误差归纳起来可分为两类：测量误差与抽样误差。由于使用的仪器、测量方法、读数方法等问题造成的测得值与真值之间的误差，称为测量误差。由于随机抽样造成的样本统计量与总体参数间的差别，称为抽样误差第二章统计图表一、数据的整理在进行整理时，如果没有充足的理由证明某数据是由实验中的过失造成的，就不能轻易将其排除。对于个别极端数据是否该剔除，应遵循三个标准差法则。二、次数分布表（一）简单次（频）数分

3、布表（二）相对次数分布表将次数分布表中各组的实际次数转化为相对次数，即用频数比率（fN）或百分比（）来表示次数，就可以制成相对次数分布表（三）累加次数分布表（四）双列次数分布表双列次数分布表又称相关次数分布表，是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量，一般是指同一组被试中每个被试两种心理能力的分数或两种心理特点的指标，或同一组被试在两种实验条件下获得的结果。三、次数分布图使一组数据特征更加直观和概括,而且还可以对数据的分布情况和变动趋势作粗略的分析。简单次（频）数分布图直方图、次数多边形图累加次数分布图累加直方图、累加曲线（一）简单次数分布图直方图（二）简单次数

4、分布图次数多边图次数分布多边形图（frequency polygon）是一种表示连续性随机变量次数分布的线形图，属于次数分布图。凡是等距分组的可以用直方图表示的数据，都可用次数多边图来表示。绘制方法：以各分组区间的组中值为横坐标，以各组的频数为纵坐标，描点；将各点以直线连接即构成多边图形。（三）累加次数分布图累加直方图（四）累加次数分布图累加曲线四、其他统计图表条形图：用直条的长短来表示统计项目数值大小的图形，主要是用来比较性质相似的间断型资料。圆形图：是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体，圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。线形图用

5、来表示连续型资料。它能表示两个变量之间的函数关系；一种事物随另一种事物变化的情况；某种事物随时间推移的发展趋势等。基于线形图，既可对有关统计变量进行数量比较，又可分析发展的趋势。散点图是用相同大小圆点的多少或梳密表示统计资料量大小以及变化趋势的图。第三章集中量数集中量数用来表现数据资料的典型水平或集中趋势（central tendency）。常用的集中量包括算术平均数、加权平均数、中位数和众数等等。一、算术平均数算术平均数（arithmetic average ）一般简称为平均数（average）或均数、均值（mean）。一般用，或者用表示。算术平均数是最常用的集中量（一）算术平均数的

6、计算公式（二）算术平均数的意义算术平均数是应用最普遍的一种集中量。它是“真值”（true score）的最佳估计值。真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响，真值往往很难得到。在实际测量中，往往采用“多次测量，取平均数”的方法，用平均数去估计真值。（三）算术平均数的优缺点优点：反应灵敏、有公式严密确定、简明易懂、适合代数运算缺点：容易受两极端数值的影响；一组数据中有模糊不清的数值时无法计算。（四）计算和应用算术平均数的原则同质性原则：算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则：在解释个体特征时，既要看平均数，也要结合个体的数据。平均

7、数与标准差、方差相结合原则：描述一组数据时既要分析其集中趋势，也要分析离散程度。二、中位数中位数（median）又称为中数，是按顺序排列的一组数据中位于中间位置的数。中位数是常用集中量的一种。一般用Md或Mdn表示（一）中位数的计算方法1、原始数据计算法一组数据中无重复数值的情况首先将一组数据按顺序排列；2、次数分布表计算法公式中:Lb为中位数所在组的精确下限 fb为中位数所在组下限以下的累积频数 n为数据总和 fMd为中位数所在组的频数 i为组距（二）中位数的特点及应用中位数是根据全部数据的个数来确定其位置的，意义简明，对按顺序排列的数据来讲，计算中位数也比较容易。中位数不受两端极端数据的

8、影响，但反应不灵敏，也不适合进一步代数运算的要求。一般用于下列情况：1、一组数据中有极端数据时；2、一组数据中有个别数据不确切、不清楚时；3、资料属于等级性质时。三众数众数（mode）用Mo表示，有两种定义：理论众数是指与频数分布曲线最高点相对应的横坐标上的一点；粗略众数是一组数据中出现次数最多的那个数。众数也是一种集中量，也可用来表示一组数据的集中趋势。众数的计算方法（观察法寻找粗略众数）未分组数据中出现次数最多的数即为众数。次数分布表中，频数最多那一组数据的组中值，即为众数。四、算术平均数、中位数、众数三者的关系在正态分布中：在正偏态分布中：在负偏态分布中：五、其它集中量数（一）加权平均

9、数加权平均数是不同比重数据（或平均数）的平均数，一般用表示。其计算公式有两种：（二）几何平均数几何平均数（geometric mean）是n个数值连乘积的n次方根，用或表示。计算公式为：当数据的分布呈偏态时，可用几何平均数表示该组数据的集中趋势。几何平均数的变式两边取对数，得注意：几何平均数计算的是平均的变化情况，如果要计算平均增长率，需要从几何平均数中减去基数1。几何平均数的应用：1.直接应用基本公式计算几何平均数有少数极端数据,数据呈偏态分布;心理物理学中的等距与等比量表实验中.（例3-8P72）2.应用几何平均数的变式计算按一定比例变化的一列数据,一般用来求平均变化率如平均增长率.

10、例3-93-103-11P73（三）调和平均数调和平均数(harmonic mean),用符号MH表示.也叫倒数平均数.公式为：调和平均数的应用学习速度方面的问题.调和平均数在描述速度方面的集中趋势时,优于其他集中量在有关研究学习速度的实验设计中,反应指标一般常取两种形式;1、工作量固定,记录各被试完成相同工作所用的时间.例3-133-14P762、学习时间一定，记录一定时间内各被试完成的工作量,例3-15第四章差异量数描述数据离散程度的统计量称为差异量。差异量越大，表明数据越分散、不集中；差异量越小，表明数据越集中，变动范围越小。一组数据的离散程度，常常通过数据的离中趋势特点进行分析。

11、一、全距、四分位距和百分位距（一）全距 R （range）全距是一组数据中的最大值（maximum）与该组数据中最小值（minimum）之差，又称极差。RXmaxXmin（二）百分位差（百分位距）百分位差是指两个百分位数（percentile）之差。常用的百分位距有两种：用几个百分位距能较好地反映一组数据的差异程度。对于任何一组观察值,只要任意指定一个位置,就可以求出这个位置的数应该是多少；-百分位数相反,如果给出一个数,也可以求出它应该在哪个位置.-百分等级百分位数频数分布中相对于某个特定百分点的原始分数，它表明在分布中低于该分数的个案占总频数的百分比。百分等级分数频数分布中低于特定原

12、始分数的频数百分比。（三）四分位距四分位距是第一个四分位数与第三个四分位数之差的一半,计算公式为（四）平均差平均差（average deviation 或者 mean deviation）是指一组数据中，每一个数据与该组数据的平均数离差的绝对值的算术平均数，通常用AD或MD表示。原始数据计算公式（五）方差和标准差方差（又称为变异数、均方）。是表示一组数据离散程度的统计指标。一般样本的方差用表示，总体的方差用表示。标准差（standard deviation）是方差的算术平方根。一般样本的标准差用 S 表示，总体的标准差用表示。标准差和方差是描述数据离散程度的最常用的差异量。1、样本方差及

13、标准差定义公式 2、总体方差及标准差的定义公式是总体的无偏估计3、原始数据的方差与标准差计算4、总标准差的合成方差具有可加性的特点。当已知几个小组数据的方差或标准差时，可以计算几个小组联合在一起的总的方差或标准差。需要注意的是，只有在应用同一种观测手段，测量的是同一种特质，只是样本不同的数据时，才能计算合成方差或标准差。计算公式公式中: 为总方差, 为总标准差 Si为各小组标准差 ni为各小组数据个数 5、方差和标准差的性质方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点。标准差是一组数据方差的算术平方根，它不可以进行代数计算，但有以下特性：如果则如果则6、方差和标准

14、差的意义方差与标准差是表示一组数据离散程度的最好指标，是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备的条件，如：反应灵敏，有公式严密确定，简明易懂，适合代数运算等等。应用方差和标准差表示一组数据的离散程度，须注意必须是同一类数据（即同一种测量工具的测量结果），而且被比较样本的水平比较接近。7、标准差的应用/差异系数差异系数（coefficient of variation）是指标准差与其算术平均数的百分比，它是没有单位的相对数。常以CV表示,其计算公式为：差异系数的作用：比较不同单位资料的差异程度比较单位相同而平均数相差较大的两组资料的差异程度可判断特殊差异情况 8、标准差

15、的应用标准分数又称基分数或Z分数，是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。离平均数有多远，即表示原始分数在平均数以上或以下几个标准差的位置，从而明确该分数在团体中的相对地位的量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。（1）标准分数的计算公式及其性质没有实际单位；可正可负，可为零；一组原始数据中，各个Z分数的标准差为1；正态分布的原始数据，转换得到的Z分数是标准的正态分布（0，1）。（2）Z分数的作用分数可以表明原始分数在团体中的相对位置，因此称为相对位置量数。把原始分数转换成分数，就把单位不等距的和缺乏明确参照点的分数转换

16、成以标准差为单位、以平均数为参照点的分数。（3）标准分数的优点可比性：标准分数以团体的平均数为基准，以标准差为单位，因而具有可比性。可加性：标准分数使不同的原始分数具有相同的参照点，因而具有可加性。明确性：标准分数较原始分数的意义更为明确。合理性：标准分数保证了不同性质的分数在总分数中的权重相同，使分数更合理地反映事实。第五章相关分析一、相关概述（一）相关的概念两个变量之间不精确、不稳定的变化关系，称为相关关系。两个变量之间的变化关系，既表现在变化方向上，又表现在密切程度上。两个变量之间的变化方向有：正相关：两个变量的变化方向相同。负相关：两个变量的变化方向相反。零相关

17、：两个变量的变化方向无一定规律。从关系密切程度来看，两个变量的变化程度可大致分为完全相关：两个变量的变化程度完全一致。强相关：两个变量变化的一致性比较强。中等相关：两个变量变化的一致程度中等。弱相关：两个变量变化的一致性比较差。完全不相关：两个变量变化程度没有一致性。（二）相关系数用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数，一般样本的相关系数用r表示，总体的相关系数用表示。相关系数的取值： -1 r +1 0r1 相关系数的符号：“”表示正相关，“”表示负相关。相关系数的性质相关系数不是由相等单位度量而来的，因此只能比较大小，不能做任何加、减、乘、除运算。二、

18、积差相关（一）积差相关及其适用条件积差相关是英国统计学家皮尔逊（pearson）于20世纪初提出的一种计算相关的方法，因而被称为皮尔逊积差相关,也称为积矩相关（product moment correlation）。积差相关适用于：1、两个变量都是连续数据；两变量总体都为正态分布；两变量之间为线性关系。2、成对数据，样本容量要大。积差相关条件的判断方法：连续变量：根据得到数据的方式判断，测量数据。正态分布：一般情况下，正常人群的身高、体重、智力水平、心理与教育测验的结果，都可按总体正态分布对待；如果要求比较高，则需要对数据进行正态性检验。线性关系：根据相关散布图可判断两个变量之间是否线性关系。

19、（二）相关系数的等距转换及其合并相关系数不是等距数据，更不是比率数据，它只能比较相对大小，不能进行加减乘除运算。但我们常会遇到需要将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题。这时，可以先将相关系数r转换成具有等距单位的Zr值。三、斯皮尔曼等级相关等级相关（rank correlation）是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼（spearman）二列等级相关和肯德尔和谐系数（the kandall coefficient of concordance）多列等级相关。（一）斯皮尔曼等级相关的概念及适用条件斯皮尔曼等级相关是等级相关的一种。它适

20、用于两个以等级次序表示的变量，并不要求两个变量总体呈正态分布，也不要求样本的容量必须大于30。当连续数据不能满足计算积差相关的条件时，可以转换成等级数据从而计算斯皮尔曼等级相关系数。四、肯德尔和谐系数肯德尔等级相关方法有许多种，肯德尔和谐系数是其中一种。肯德尔和谐系数常以r表示，适用于多列等级变量的资料。肯德尔和谐系数可以反映多个等级变量变化的一致性。肯德尔U系数与W系数的适用资料相同。五、质与量的相关（一）点二列相关适用条件一个变量为正态、连续变量，另一个变量为真正的二分名义变量，这两个变量之间的相关，称为点二列相关（point-biserial correlation）。有时一个变

21、量并非真正的二分变量，而是双峰分布的变量，也可以用点二列相关来表示。多用于评价是非类测验题目组成的测验内部一致性。（二）二列相关两个变量都是正态连续变量，其中一个变量被人为地划分成二分变量，表示这两个变量之间的相关，称为二列相关（biserail correlation）。将连续变量人为划分为二分变量时，应注意尽量使分界点接近平均数。教育或心理测验中问答题的区分度指标。六、品质相关两个变量都是按性质划分成几种类别，表示这两个变量之间的相关称为品质相关。品质相关处理的一般是计数数据而不是连续数据，变量划分为不同的品质类别,主要用于双向表或称为列联表（RC表）。品质相关的方法有多种，最常用的是

22、四分相关、相关和列联表相关。第六章概率分布一、概率的定义（一）基本概念概率（probability）：表明随机事件可能性大小的客观指标。概率的两种定义:后验概率和先验概率。后验概率（或统计概率）随机事件的频率：当n无限增大时，随机事件A的频率会稳定在一个常数P，这个常数就是随机事件A的概率。先验概率（古典概率）古典概率模型要求满足两个条件：试验的所有可能结果是有限的；每一种可能结果出现的可能性相等。（二）概率的公理系统1任何随机事件的概率都是在0与1之间的正数，即 0 P（A）12不可能事件的概率等于零，即 P（A）= 0 3必然事件的概率等于1，即 P（A）= 1 （三）概率分布类型

23、概率分布（probability distribution）是指对随机变量取不同值时的概率的描述，一般用概率分布函数进行描述。依不同的标准，对概率分布可作不同的分类。、离散型分布与连续型分布依随机变量的类型，可将概率分布分为离散型概率分布与连续型概率分布。心理与教育统计学中最常用的离散型分布是二项分布，最常用的连续型分布是正态分布。、经验分布与理论分布依分布函数的来源，可将概率分布分为经验分布与理论分布。经验分布（empirical distribution）是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布（theoretical distribution）是按某种

24、数学模型计算出的概率分布。、基本随机变量分布与抽样分布依所描述的数据的样本特性，可将概率分布分为基本随机变量分布与抽样分布（sampling distribution）。基本随机变量分布是随机变量各种不同取值情况的概率分布，抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。二、概率分布正态分布（一）正态分布特征正态分布（normal distribution）也称为常态分布，是连续型随机变量概率分布的一种，是在数理统计的理论与实际应用中占有最重要地位的一种理论分布。 1正态分布曲线函数正态分布曲线函数又称概率密度函数，其一般公式为：公式所描述的正态曲线，由和两个参数决定。2、正态分布

25、的性质正态分布是以为中心的对称分配。正态分布有 2 个参数： m (平均数)以及 s (标准差) ，其决定了分配的位置及形状。正态分布曲线下面的面积总和等于1。正态分布在时有一转折点。正态分布曲线的两尾无限延伸。正态分布是一族曲线，标准正态分布是一条曲线。3、标准正态分布曲线将标准分数代入正态曲线函数，并且，令1，则公式变换为标准正态分布函数：标准正态分布曲线的特点曲线在处达到最高点曲线以处为中心，双侧对称曲线从最高点向左右缓慢下降，向两侧无限延伸，但永不与基线相交。标准正态分布曲线的平均数为，标准差为。从3至3之间几乎分布着全部数据。曲线的拐点为正负一个标准差处。4、正态分

26、布表的使用已知Z值求概率求0至某一值之间的概率：直接查表求两个值之间的概率两值符号相同：PZ1Z2PZ2PZ1 两值符号相反：PZ1Z2PZ2PZ1求某一Z值以上的概率 Z0时，PZ0.5PZ Z0时，PZ0.5PZ求某一Z值以下的概率 Z0时，PZ0.5PZ Z0时，PZ0.5PZ已知面积（概率）求Z值求Z0以上或以下某一面积对应的Z值：直接查表求与正态曲线上端或下端某一面积P相对应的Z值：先用0.5PZ，再查表求与正态曲线下中央部位某一面积相对应的Z值：先计算P2，再查表已知概率或Z值，求概率密度Y直接查正态分布表就能得到相应的概率密度值。如果由概率求值，要注意区分已知概率是位于正态

27、曲线的中间部分，还是两尾端部分，才能通过查表求得正确的概率密度。三、概率分布二项分布（一）二项试验与二项分布二项分布（bionimal distribution）是一种具有广泛用途的离散型随机变量的概率分布，它是由贝努里创始的，因此又称为贝努里分布。1二项试验满足以下条件的试验称为二项试验：一次试验只有两种可能的结果，即成功和失败；共有n次试验，并且n是预先给定的任一正整数；各次试验相互独立，即各次试验之间互不影响；各次试验中成功的概率相等，失败的概率也相等。2二项分布函数二项分布是一种离散型随机变量的概率分布。用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次

28、数（X0，1）的概率分布，叫做二项分布函数。二项展开式的通式（即二项分布函数）：3、二项分布的平均数和标准差如果二项分布满足pq且 nq5（或者pq且 np5时，二项分布接近于正态分布。可用下面的方法计算二项分布的平均数和标准差。二项分布的平均数为：二项分布的标准差为：4、二项分布的应用二项分布函数除了用来求成功事件恰好出现X次的概率之外，在教育中主要用来判断试验结果的机遇性与真实性的界限。四、概率分布样本分布（一）、抽样分布区分三种不同性质的分布：总体分布：总体内个体数值的频数分布样本分布：样本内个体数值的频数分布抽样分布：某一种统计量的概率分布1. 抽样分布的概念抽样分布是从

29、同一总体内抽取的不同样本的统计量的概率分布。抽样分布是一个理论的概率分布，是统计推断的依据。2平均数抽样分布的几个定理从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。容量为n的平均数在抽样分布上的标准差（即平均数的标准误），等于总体标准差除以n的平方根。从正态总体中，随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。虽然总体不呈正态分布，如果样本容量较大，反映总体和的样本平均数的抽样分布，也接近于正态分布。（二）标准误某种统计量在抽样分布上的标准差，称为标准误。标准误用来衡量抽样误差。标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。因此，标准误是统计推断可靠性的指标。平均数标准误的计算1总体正态，已知（不管样本容量大小），或总体非正态，已知，大样本平均数的标准误为：2总体正态，未知（不管样本容量大小），或总体非正态，未知，大样本平均数标准误的估计值为

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？