整理华东师大心理统计学大纲.docx

资源描述

整理华东师大心理统计学大纲.docx

《整理华东师大心理统计学大纲.docx》由会员分享，可在线阅读，更多相关《整理华东师大心理统计学大纲.docx（44页珍藏版）》请在冰豆网上搜索。

整理华东师大心理统计学大纲.docx

整理华东师大心理统计学大纲

华东师大心理统计学大纲

第一章绪论

第一节什么是统计学和心理统计学

一、什么是统计学

　　统计学是研究统计原理和方法的科学。

具体地说，它是研究如何搜集、整理、分析反映事物总体信息的数字资料，并以此为依据，对总体特征进行推断的原理和方法。

　　统计学分为两大类。

一类是数理统计学。

它主要是以概率论为基础，对统计数据数量关系的模式加以解释，对统计原理和方法给予数学的证明。

它是数学的一个分支。

另一类是应用统计学。

它是数理统计原理和方法在各个领域中的应用，如数理统计的原理和方法应用心理学领域，称为心理统计学；应用统计学是与研究对象密切结合的各科专门统计学。

二、统计学和心理统计学的内容

　　统计学和心理统计学的研究内容，从不同角度来分，可以分为不同的类型。

从具体应用的角度来分，可以分成描述统计，推断统计和实验设计三部分。

　　1．描述统计对已获得的数据进行整理、概括，显示其分布特征的统计方法，称为描述统计。

2．推断统计　根据样本所提供的信息，运用概率的理论进行分析、论证，在一定可靠程度上，对总体分布特征进行估计、推测，这种统计方法称为推断统计。

推断统计的内容包括总体参数估计和假设检验两部分。

　　3．实验设计　实验者为了揭示试验中自变量和因变量的关系，在实验之前所制定的实验计划，称为实验设计。

其中包括选择怎样的抽样方式；如何计算样本容量；确定怎样的实验对照形式；如何实现实验组和对照组的等组化；如何安排实验因素和如何控制无关因素；用什么统计方法处理及分析实验结果，等等。

　　以上三部分内容，不是截然分开，而是相互联系的。

第二节统计学中的几个基本概念

　　一、随机变量

　　具有以下三个特性的现象，成为随机变量。

第一，一次试验有多中可能结果，其所有可能结果是已知的；第二，试验之前不能预料哪一种结果会出现；第三，在相同的条件下可以重复试验。

随机现象的每一

种结果叫做一个随机事件。

我们把能表示随机现象各种结果的变量称为随机变量。

统计处理的变量都是随机变量。

　　二、总体和样本

　　总体是我们所研究的具有共同特性的个体的总和。

总体中的每个单位成为个体。

样本是从总体中抽取的作为观察对象的一部分个体。

当总体所包含的个数有限时，这一总体称为有限总体。

而总体所包含的个数无限时，则称为无限总体。

样本中包含的个体数目称为样本的容量，一般用n来表示。

一般来说，样本中个体数目大于30称为大样本，等于或小于30称为小样本。

在对数据进行处理时，大样本和小样本所用的统计方法不一定相同。

　　三、统计量和参数

　　样本上的数据特征是统计量。

总体上的各种数字特征是参数。

在进行统计推断时，就是根据样本统计量来推断总体相应的参数。

第二章数据的初步整理

第一节数据的来源、种类及其分类

　　一、统计资料的来源

　　统计资料的来源有两个方面：

　　1、经常性资料

　　2、专题性资料

（1）调查资料

（2）实验资料

　二、数据的种类

　　数据是随机变量的观察值。

它是用来描述对客观事物观察测量的数值。

数据的种类不同，统计处理的方法也不同。

　　根据统计数据来源可分为点计数据和度量数据；按随机变量取值情况，可分为间断性随机变量的数据和连续性随机变量的数据。

　　1、点计数据和度量数据点计数据是指计算个数所获得的数据。

度量数据是指用一定的工具或一定的标准测量所获得的数据。

　　2、间断性随机变量的数据和连续性随机变量的数据取值个数有限的数据，称为间断性随机变量的数据。

这种数据的单位是独立的，两个单位之间不能划分成细小的单位，一般用整数表示。

取值个数无限的（不可数的）数据，称为连续性随机变量的数据。

它们可能的取值范围能连续充满某一个区间。

数据的单位之间可以再划分成无限多个细小的单位。

数据可以用小数表示。

三、数据的统计分类

　　　数据的统计分类，是指按照研究对象的本质特征，根据分析研究的目的、任务，以及统计分析时所用统计方法的可能性，将所获得的数据进行分组归类。

它是对数据进行归纳、整理、简化、概括的第一步，为进一步分析研究打下基础。

分类的标志按形式划分，可分为性质类别和数量类别。

性质类别是按事物的不同性质进行分类。

这种分类不表明事物之间的差异。

性质类别还可以进一步分成不同的层次。

数量类别是按数值大小进行分类，并排成顺序。

在排列顺序时，可以直接按数值大小进行排列，也可以用等级顺序进行排列

第二节统计表

　一、统计表的结构及其编制的原则和要求　。

　　统计表一般由标题、表号、标目、线条、数字、表注等项构成。

　　标题　标题是表的名称，应确切地、简明扼要地说明表的内容。

　　表号　表号是表的序号。

　　标目　标目是表格中对统计数据分类的项目。

　　线条　线条不宜过多。

　　数字　表内数字必须准确，一律用阿拉伯数字表示，位次对齐，小数的位数一致。

　　表注　它不是表的必要组成部分。

　二、统计表的总类

　　1、简单表只列出观察对象的名称、地点、时序或统计指标名称的统计表为简单表。

　　2、分组表只按一个标志分组的统计表为分组表。

　　3、复合表按两个或两个以上标志分组的统计表为复合表。

　三、频数分布表列法

　　1、简单频数分布表

（1）间断变量的频数分布表

（2）连续变量的频数分布表步骤：

①求全距　②决定组数和组距　③决定组限决定组限　④登记频数

2、累积频数和累积百分比分布表

（1）累积频数分布表用累积频数表示的频数分布表称为累积频数分布表。

（2）累积百分比分布表　累积百分比分布表是累积频数分布表的变型。

它是用累积百分比表示的频数分布表。

第三节统计图

　　一、统计图的结构及其绘制规则

　　统计图由标题、图号、标目、图形、图注等项构成。

下面按其构成部分说明绘图的基本规则。

　　标题　图的名称应简明扼要，切合图的内容，必要时可注明时间、地点。

　　图号　文章中若有几幅画，则需按其出现的先后次序编上序号，写在图题的作前方。

　　标目　对于有纵横轴的统计图，应在纵横轴上分别标明统计项目及其尺度。

　　图形　图形线在图中为最粗，而且要清晰。

　　图注　图注不是图中必要组成部分。

　　二、表示间断变量的统计图

　　1、直条图直条图是用直条的长短表示统计事项数量的图形。

它主要是用来比较性质相似的间断性资料。

　　2、圆形图圆形图是用来表示间断性资料构成比的图形。

　　三、表示连续变量的统计图

　　1、线形图线形图用来表示连续性资料。

它能表示两个变量之间的函数关系；一种事物随另一种事物变化的情况；某种事物随时间推移的发展趋势等。

　　2、频数分布图常用的频数分布图有直方图、多边图和累积多边图。

（1）直方图直方图用面积表示频数分布。

用各组上下限上的矩形面积表示各组频数。

（2）多边图多边图以纵轴上的高度表示频数的多少。

　　（3）累积频数和累积百分比多边图。

第三章集中量

　　集中量是代表一组数据典型水平或几种趋势的量。

它能反映频数分布中大量数据向某一点集中的情况。

第一节算术平均数

　　一、算术平均数的概念

　　算术平均数是所有观察值得总和除以总频数所得之商，简称为平均数或均数。

计算公式为（3.1）。

　　算术平均数的特征：

（1）观察值的总和等于算术平均数的N倍；

（2）各观察值与其算术平均数之差的总和等于零；

　　（3）若一组观察值是由两部分（或几部分）组成，这组观察值的算术平均数可以由组成部分算术平均数而求得；

　　二、算术平均数的应用及其优缺点

　　算术平均数具备一个良好的集中量所应具备的一些条件：

（1）反应灵敏。

（2）严密确定。

简明易懂，计算方便。

　　（3）适合代数运算。

　　（4）受抽样变动的影响较小。

除此之外，算数平均数还有几个特殊的优点：

（1）只知一组观察值的总和及总频数就可以求出算术平均数

（2）用加权法可以求出几个平均数的总平均数。

　　（3）用样本数据推断总体集中量时，算术平均数最接近于总体集中量的真值，它是总体平均数的最好估计值。

　　（4）在计算方差、标准差、相关系数以及进行统计推断时，都要用到它。

　　算术平均数的缺点：

（1）易受两极端数值（极大或极小）的影响。

（2）一组数据中某个数值的大小不够确切时就无法计算其算术平均数。

第二节中位数

　　一、中位数的概念

　　中位数是位于依一定顺序排列的一组数据中央位置的数值，在这一数值上、下各有一半频数分布着。

　　二、中位数的计算方法

　　1、原始数值计算方法将一组原始数据依大小顺序排列后，若总频数为奇数，就以位于中央的数据作为中位数；若总频数为偶数，则以最中间的两个数据的算术平均数作为中位数。

　　2、频数分布表计算法若一组原始数据已经编成了频数分布表，可用内插法，通过频数分布表计算中位数。

　　三、百分位数的概念及其计算方法

　　百分位数是位于依一定顺序排列的一组数据中某一百分位置的数值。

在心理测量中，常通过计算百分位数来说明、解释和评价分数在团体中所处的位置。

计算公式为（3.5）。

　　四、中位数的应用及其优缺点

　　中位数虽然也具备一个良好的集中量所应具备的某些条件，例如比较严格确定、简明易懂，计算简便，受抽样变动影响较小，但是它不适合进一步的代数运算。

它适用于以下几种情况：

（1）一组数据中有特大或特小两极端数值时；

（2）一组数据中有个别数据不确切时；（3）资料属于等级性质时。

　第三节众数

　　一、众数的概念

　　众数是集中量的一种指标。

对众数有理论众数及粗略众数两种定义方法。

理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。

粗略众数是指一组数据中频数出现最多的那个数。

二、众数的计算方法

1、用观察法直接寻找粗略众数

粗略众数不需要计算，可通过观察直接寻得。

2、用公式求理论众数的近似值

（1）皮尔逊（K.Person）的经验法

　　利用皮尔逊发现的算术平均数、中位数、众数三者关系来求理论众数近似值的经验公式为（3.6）。

（2）金氏（W.I.King）插补法

　　当频数分布呈偏态，即众数所在组以上各组频数总和与以下各组频数总和相差较多时，可以用金氏公式计算众数，以进行比率调整。

其公式为（3.7）。

　　三、众数的应用及其优缺点

　　众数虽然简明易懂，但是它并不具备一个良好的集中量的基本条件。

它主要在以下情况下使用：

（1）当需要快速而粗略地找出一组数据的代表值时；

（2）当需要利用算术平均数、中位数和众数三者关系来粗略判断频数分布的形态时；（3）利用众数帮助分析解释一组频数分布是否确实具有两个频数最多的集中点时。

第四节加权平均数、几何平均数

　　一、加权平均数

加权平均数是不同比重数据（或平均数）的平均数。

计算公式为（3.8）或（3.9）。

　　二、几何平均数

　　几何平均数是N个数值连乘积的N次方根。

计算公式为（3.10）。

　　当一个数列的后一个数据是以前一个数据为基础成比例增长时，要用几何平均数求其平均增长率。

三、调和平均数

调和平均数是一组数据倒数的算术平均数的倒数，亦称倒数平均数。

用来表示。

调和平均数在教育方面主要是用来求学习速度。

计算公式为（3。

11）。

第四章差异量

第一节　全距、四分位距、百分位距

一、全距

全距是一组数据中最大值与最小值之差，又称极差。

用R表示。

二、四分位距

1、四分位距的概念

为了避免全距受到两极端数值影响的缺点，则用依一定顺序排列的一组数据中间部位百分之五十个频数距离的一半作为差异量指标，即四分位距。

公式（4。

1）

2、四分位距的计算方法

（1）原始数据计算法1）先将数据从小到大排列好。

2）然后根据求中位数的方法求出第一个四分位数和第三个四分位数，将之代入公式（4。

1）即为四分位距。

（2）频数颁布表计算法1）先用内插法求出第一个四分位数及第三个四分位数，然后将之代入公式（4。

1）即可。

计算与的公式分别为公式（4。

2a）和公式（4.2b）。

2）然后根据公式（4。

1）计算。

3、四分位距的应用及其优缺点

优点：

四分位位距简明易懂，计算简便，较少受两极端数值的影响，比全距可靠得多。

缺点：

但它忽略了左右共数据的差异，又不适合代数运算，因而也限制了它的应用。

当一组数据用中位数表示集中量时，就要用分位距表示差异量。

因为它们同属于百分体系。

三、百分位距

百分位距是指两个百分位数之差。

常用的百分位距有两种：

一为第90与第10百分位数之差，用表示。

即依一定顺序排列的一组数据中间部位个频数的距离。

一为第93与第7百分位数之差，用表示，是一组数据中间部位个频数的距离。

第二节　平均差

　　一、平均差的概念

　　所谓平均差，就是每一个数据与该组数据的中位数（或算术平均数）离差的绝对值的算术平均数。

　　二、平均差的计算方法

　　用原始数据计算平均差的公式为（4.3）

　　三、平均差的优缺点

平均差意义明确，计算容易，每个数据都参加了运算，考虑到全部的离差，反应灵敏。

但计算要用绝对值，不适合代数运算。

第三节方差和标准差

　　一、方差和标准差的概念

方差是指离差平方的算术平均数。

其定义公式为（4.5），计算公式是（4.7）。

标准差是指离差平方和平均后的方根。

即方差的平方根。

其定义公式为（4.6），计算公式是（4.8）。

　　二、方差和标准差的应用及其优缺点

方差和标准差的优点：

反应灵敏，随任何一个数据的变化而表示；一组数据的方差和标准差有确定的值；计算简单；适合代数计算，不仅求方差和标准差的过程中可以进行代数运算，而且可以将几个方差和标准差综合成一个总的方差和标准差；用样本数据推断总体差异量时，方差和标准差是最好的估计量。

方差和标准差的缺点：

不太容易理解；易受两极端数值的影响；有个别数值糊涂不清时，无法计算。

与其他差异量指标相比，方差和标准差应用最为广泛。

它的最直接用途是描述一组数据的离散程度，当一组数据的集中量有算术平均数表示时，差异量要用标准差表示。

第四节相对差异量

　　一、相对差异量的概念

　　上述全距、四分位距、平均差及标准差都是带有与原观察值相同单位的名数，称为绝对差异量。

这种差异量对两种单位不同，或单位相同而两个平均数相差较大的资料，都无法比较差异的大小，必须用相对差异量（即差异系数）进行比较。

　　所谓差异系数是指标准差与其算术平均数的百分比。

它是没有单位的相对数。

其计算公式是（4.11）

二、差异系数的用途

1、比较不同单位资料的差异程度

　2、比较单位相同而平均数相差数较大的两组资料的差异量程度　

　3、可判断特殊差异情况

三、差异系数的应用条件

　从测验的理论来说，只有等比量表才使平均数等于零成为不可能。

也就是说，用来测量的量尺，既具有等距的单位，又具有绝对零点，这时所测量出的数据其平均数才不可能等于零，这时才能计算差异系数。

第五节偏态量及峰态量

　　偏态量及峰态量是用以描述数据分布特征的统计量。

　　一、偏态量

1、利用算术平均数与众数或中位数的距离来计算。

其公式为（4.12）。

当SK=0，则分布呈对称形；当SK＞0时，分布呈正偏态；当SK＜0时，分布为负偏态。

　　2、根据动差来计算。

其公式为（4.14）。

　　二、峰态量

1、用两个百分位距来计算。

其公式为（4.16）。

2、根据动差来计算。

其公式为（4.17）。

第五章　概率及概率分布

第一节　概率的一般概念

一、概率的定义

　　概率因寻求的方法不同有两种定义，即后验概率和先验概率。

　　1、后验概率的定义

　　以随机事件A在大量重复试验中出现的稳定频率值作为随机事件A概率的估计值，这样寻得的概率称为后验概率。

计算公式是（5.2）。

　　2．先验概率的定义

先验概率是通过古典概率模型加以定义的，故又称为古典概率。

古典概率模型要求满足两个条件：

（1）试验的所有可能结果是有限的；

（2）每一种可能结果出现的可能性（概率）相等。

若所有可能结果的总数为n，随机事件A包括m个可能结果，则事件A的概率计算公式为（5.3）。

二、概率的性质

　　1、任何随机事件A的概率都是介于0与1之间的正数；

　　2、不可能事件的概率等于0；

3、必然事件的概率等于1。

三、概率的加法和乘法

　　1、概率的加法

　　在一次试验中不可能同时出现的事件称为互不相容的事件。

　　两个互不相容事件和的概率，等于这两个事件概率之和。

用公式表示为（5.4）和（5.5）。

　　2.概率的乘法

　　A事件出现的概率不影响B事件出现的概率，这两个事件为独立事件。

两个独立事件的概率，等于这两个事件概率的乘积。

用公式表示为（5.6）和（5.7）。

第二节　二项分布

　　一、二项试验

　　满足以下条件的试验称为二项试验：

（1）一次试验只有两种可能结果，即成功和失败；

（2）各次试验相互独立，互不影响；（3）各次试验中成功的概率相等。

　二、二项分布函数

　　二项分布是一种离散型随机变量的概率分布。

用n次方的二项展开式来表达在n次二项试验中成功事件出现不同次数（X=0,1,…,n）的概念分布叫做二项分布。

　二项展开式的通式（5.8）就是二项分布函数，运用这一函数式可以直接求出成功事件恰好出现X次的概率。

三、二项分布图

　　从二项分布图可以看出，当p=q，不管n多大，二项分布呈对称形。

当n很大时，二项分布接近于正态分布。

当n趋近于无限大时，正态分布是二项分布的极限。

　　四、二项分布的平均数和标准差

　　当二项分布接近于正态分布时，在n次二项实验中成功事件出现次数的平均数和标准差分别可以由公式（5.9）和（5.10）计算而得。

　　五、二项分布的应用

　　二项分布函数除了用来求成功事件恰好出现X次的概率之外，在心理学中主要用来判断实验结果的机遇性与真实性的界限。

属于二项分布的问题，若实验次数n较大，一般都用正态分布近似处理。

第三节　正态分布

　　正态分布是一种连续型随机变量的概率分布。

　　一、正态曲线

　　1．正态曲线函数：

　　正态曲线的函数式是公式（5.11）。

　　标准正态分布的函数式是公式（5.12）。

　　2.正态曲线的特点：

（1）曲线在Z=0处为最高点。

（2）曲线以Z=0处为中心，双侧对称。

　　（3）曲线从最高点向左右缓慢下降，并无限延伸，但永远不与基线相交。

　　（4）标准正态分布上的平均数为0，标准差为1。

　　（5）曲线从最高点向左右延伸时，在正负1个标准差是拐点。

　　二、正态曲线的面积与纵线

　　1、累积正态分布函数

　　2、标准正态分布下面积的求法3、正态曲线的纵线

　三、正态分布在测验计分方面的应用

　　1、将原始分数转换成标准分数

　　标准分数的意义：

第一，各科标准分数的单位是绝对等价的；第二、标准分数的正负和大小可以反映出考生在全体考分中所处的地位。

　　2、确定录用分数线

　　3、确定等级评定的人数

　　4、品质评定数量化

第六章　抽样分布及总体平均数的推断

第一节　抽样分布

一、抽样分布的概念

要区分以下三种不同性质的分布：

1、总体分布：

总体内个体数值的频数分布。

2、样本分布：

样本内个体数值的频数分布。

3、抽样分布：

某一种统计量的概率分布。

二、平均数抽样分布的几个定理

1、从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数。

公式表示为（6.1）。

2、容量为n的平均数在抽样分布上的标准差，等于总体标准差除以n的方根。

公式表示为（6.2）。

3、从正态总体中，随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。

4、虽然总体不呈正态分布，如果样本容量较大，反映总体μ和σ的样本平均数的抽样分布，也接近于正态分布。

三、样本平均数与总体平均数离差统计量的形态

　　从正态总体中随机抽取的容量为n的一切可能样本平均数为中心呈正态分布。

当总体标准差已知时，一切可能样本平均数与总体平均数的离差统计量呈标准正态分布（6.3）。

　　总体标准差σ的无偏估计量S等于样本统计量σx乘以贝赛耳氏校正数，公式（6.4）。

　　从正态总体中随机抽取容量为n的一切可能样本平均数的抽样分布呈正态分布。

当总体标准差σ未知，需用估计值S来代替，于是平均数标准误也被平均数标准误的估计值所代替，这时一切可能样本平均数与总体平均数的离差统计量呈t分布（6.6）。

　　t分布与正态分布的相似之处：

t分布基线上的t值从-∞－+∞；从平均数等于0处，左侧t值为负，右侧t值为正；曲线以平均数处为最高点向两侧逐渐下降，尾部无限延伸，永不与基线相接，呈单峰对称形。

t分布与正态分布的区别之处在于：

t分布的形态随自由度（df=n-1）的变化呈一簇分布形态（即自由度不同的t分布形态也不同，见图6.1）。

自由度逐渐增大时，t分布逐渐接近正态分布。

自由度是指总体参数估计量中变量值独立自由变化的个数。

第二节　总体平均数的参数估计

一、总体参数估计的基本原理

　1、点估计：

用某一样本统计量的值来估计相应总体参数的值叫总体参数的点估计。

点估计的评价标准：

（1）无偏性：

如果一切可能个样本统计量的值与总体参数值偏差的平均值为0，这种统计量就是总体参数的无偏估计量。

（2）有效性：

当总体参数不止有一种无偏估计量时，某一种估计量的一切可能样本值的方差小者为有效性高，方差大者为有效性低。

（3）一致性：

当样本容量无限增大时，估计量的值能越来越接近它所估计的总体参数值，这种估计量是总体参数一致性估计量。

　2、区间估计：

以样本统计量的抽样分布（概率分布）为理论依据，按一定概率要求，由样本统计量的值估计总体参数值的所在范围，称为总体参数的区间估计。

区间估计涉及置信水平和置信区间。

对总体参数进行区间估计，就是在一定的可靠度上求出总体参数的置信区间的上下限，那么有如下步骤：

（1）、要知道与所要估计的参数相对应的样本统计量的值，以及样本统计量的理论分布；

（2）、要求出该种统计量的标准误；

（3）、要确定在多大的可靠度上对总体参数作估计，再通过查某种理论概率分布表，找出与某种可靠度相对应的该分布横轴上记分的临界值，才能计算出总体参数的置信区间的上下限。

二、σ已知条件下总体平均数的区间估计

当总体σ已知，总体呈正态分布，样本容量无论大小时，或者当总体σ已知，总体虽不呈正态分布，但样本容量较大（n>30）时，样本平均数与总体平均数离差统计量均呈正态分布。

区间估计的计算公式为（6.8）和（6.9）。

三、σ未知条件下总体平均数的区间估计

　　1、σ未知条件下，总体平均数的区间估计的基本原理：

当总体σ未知，总体呈正态分布，样本容量无论大小时，或者当总体σ未知，总体虽不呈正态分布，但样本容量较大（n

展开阅读全文