现代心理与教育统计学的复习重点.docx

资源描述

现代心理与教育统计学的复习重点.docx

《现代心理与教育统计学的复习重点.docx》由会员分享，可在线阅读，更多相关《现代心理与教育统计学的复习重点.docx（17页珍藏版）》请在冰豆网上搜索。

现代心理与教育统计学的复习重点.docx

现代心理与教育统计学的复习重点

一二章、绪论

现代统计学之父:

皮尔逊

描述统计与推断统计

描述统计主要研究如何整理、描述数据的特征。

推断统计主要研究如何通过局部数据所提供的信息推论总体特征。

变量类型

定类变量:

如,性别、学号、颜色类别、教学方法。

特征:

没有绝对零点,没有测量单位。

变量值之间有“相等”与“不等”的关系,但没有大小之分,不能比较大小,更不能进行加、减、乘、除四则运算。

定序变量:

程度、等级与水平。

如,比赛名次、品质等级、喜爱程度

特征:

既无零点、又无测量单位。

变量的值之间具有“等于”或“不等于”关系、序关系（优于、先于、劣于、后于等）,四则运算没有意义。

定比变量:

除了可以说出名称与排出大小,还能算出差异大小量的变量。

如温度、测验成绩、智商。

特征:

有相等的测量单位,无绝对零点。

考试成绩为零不表示没有一点知识。

可进行加减运算,乘除运算则无意义。

定距变量:

如身高、重量、学生人数。

既有测量单位,又有绝对零点,可进行计算。

降低偏差:

利用随机抽样

降低变异性:

用大一点的样本

3、描述统计

一、频数:

某一事件在某一类别中出现的次数。

频数分布类型:

正态,正（负）偏态,正（反）J形,U形分布。

分布性质;集中（分散）程度,偏度与峰度不同。

偏态系数:

数据的对称性

峰态系数:

数据的峰度

二、集中量数:

包括算术平均数

、中位数

、众数

（用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便）、加权平均数

、几何平均数

、调与平均数

。

组数据中有少数数据偏大或偏小,数据的分布呈偏态时,应用几何平均数。

算数平均数的性质（算法必须会）:

（1）每一个变量加减或乘除一个数之后,均值也相应增加。

（2）变量值与均值的离均差之与为零。

（3）变量值与均值的离均差平方与为最小值。

三、离散量数:

全距R、四分位差Q、平均差A、D、方差（样本统计量

总体参数

）、标准差（s或者SD）、百分位差

全距:

全部数据中的最大值与最小值的差,描述了数据分布的范围。

四分位差（Q）:

样本中间50%的人的全距的一半。

就是一个距离,Q越大,表示样本中各样品越不整齐、

平均差:

全部数据与均值绝对离均差的均值。

方差:

各个数据偏离中心的程度。

方差越大,数据波动越大。

标准差:

方差的算术平方根。

自由度:

自由度就是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。

标准分数:

以标准差为单位表示一个原始分数在团体中所处的相对位置,即原始分数在均值以上或以下几个标准差的位置。

性质:

标准分数的均值为0,标准差为1。

没有实际单位。

应用:

（1）、比较不同性质的观测值在各自数据分布中相对位置的高低。

如身高与体重。

（2）计算不同质的观测值的总与或者均值,以表示在团体中的相对位置。

如高考的标准分。

（3）做线性转换后,表示标准测验分数。

如IQ。

图表

条形图,用于定性数据。

直方图与多边图:

用于定量数据

时序图:

反映事物变化趋势

饼图:

定性数据的多少或构成比例

散点图:

两个变量的变化关系与变化方向。

茎叶图:

保留小样本连续变量的原貌。

三线表的组成要素包括:

表序、表题、项目栏、表体、表注

五、随机变量分布

正态分布

------------------样本均值的分布

正态分布曲线下的面积:

曲线高度就是频数（Y）,曲线下面积则就是累积频数P（也视作随机变量出现的概率）。

X轴上的截距为Z。

其中,μ决定曲线的位置,σ决定曲线的“胖瘦”。

无论各分布的均值与标准差的值就是多少,x取值以下特定区域的概率（面积）就是确定的,即:

正负一个标准差,占68、27%,两个95、45%,三个99、73%

标准正态分布:

均值为0,标准差为1、

总体服从正态分布N~（μ,

）时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的期望为μ,方差为σ2/n。

即X～N（μ,

）

平均数的标准误

标准误衡量了抽样误差（samplingerror）的大小。

所谓抽样误差就是指由抽样引起的样本统计量与总体参数间的差异。

标准误越小,统计量与参数越接近,样本对总体越有代表性,用统计量推断参数的可靠度越大,所以,标准误就是推断统计可靠性的重要指标。

卡方分布:

变量相互独立,且服从

分布的随机变量。

称随机变量服从自由度为为n的卡方分布。

记做

卡方分布:

样本方差的分布（样本方差的分布）

T分布:

随机变量X服从N（0,1）,Y服从

且相互独立,则随机变量服从自由度为n的t分布,记做tt（n）、

、

来自一个正态总体:

来自两个正态总体

为两样本的混合标准差。

T分布的均值为0,方差为n/（n-2）、

t统计量就是参数估计与假设检验的基础。

特点:

当样本容量趋于

t分布为正态分布,方差为1,

随自由度的减少,离散程度（方差）增大,分布中间变低,尾部变高。

F分布:

----------两样本方差的比

F统计量主要用于方差分析、协方差分析、回归分析等。

6、参数估计

参数估计:

当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就就是如何从局部结果推论总体的情况,称为总体参数估计。

总体参数估计问题可以分为点估计与区间估计。

点估计:

用某一样本统计量的值来估计相应总体参数的值。

优良的估计量具有的性质:

无偏性、有效性、一致性。

区间估计:

按一定概率要求,由样本统计量的值估计总体参数值的所在范围。

原理:

抽样分布理论。

抽样分布的标准误的大小决定置信区间的长度。

置信区间:

指在某一置信度时,总体参数所在的区域长度。

置信度:

就是作出某种推断时正确的可能性（概率）。

通常用（1－a）表示。

显著性水平:

即a,就是指估计总体参数落在某一区间时可能犯错误的概率。

两个要素:

可靠性（置信水平的高低）与精确度（区间长度）。

置信水平为95%的置信区间的确切含义:

重复抽样N次,所得到的N个置信区间中有95%个包含了总体参数。

影响区间估计精确度的因素:

（1）置信度（1－a）（反比）

（2）样本容量（正比）

（3）总体数据的变异程度（反比）

0、95的置信区间:

单总体均值的区间估计:

方差已知,正态分布;

方差未知,t分布。

两总体均值差异的区间估计:

T分布。

相关样本与独立样本都为T分布。

其中,独立样本时用很长很长的那个公式。

总体均值的区间估计:

卡方分布

7、假设检验

假设检验（显著性检验）:

事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设就是否成立。

类型:

参数检验与非参数检验（包括分布检验与独立性检验）。

假设检验的原理:

（1）逻辑上为反证法（假设检验首先假定虚无假设

为真,通过否定

来检验备择假设

的真实性）

（2）统计上为小概率事件（小概率事件在一次实验或观测中,几乎就是不可能发生的。

在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。

小概率由研究者事先确定,如0、05,0、01,0、001等）。

假设检验的步骤:

（1）提出原假设与备择假设

（2）确定适当的检验统计量,检验统计量（方差已知）的基本形式为:

（3）规定显著性水平（0、05或0、01）

（4）计算检验统计量的值

（5）作出统计决策

拒绝域:

拒绝原假设的概率。

两类错误:

拒真错误

型错误;取伪错误

型错误。

统计效力（统计检验力）

。

两类错误的关系:

（1）

不一定等于1、

（2）其她条件不变,两者不能同时增大或者减小。

（3）两者地位不一样。

我们应尽量避免第一类错误。

（4）影响

错误的因素有总体标准差（正比）与样本容量（反比）。

单侧检验与双侧检验

单侧检验:

强调方向性。

双侧检验:

只强调差异,不强调方向性。

单总体均值的假设检验:

方差已知,正态分布;

。

用这个统计公式,然后查表。

方差未知,t分布。

两总体均值差异的显著性检验:

（1）相关样本,使用t分布统计量

（2）独立样本,方差已知,使用正态分布统计量;

（3）独立样本,方差未知,但就是齐性,使用t分布统计量

总体分布的假设检验（属于非参数检验）:

卡方检验

设有N个被试,按变量X的取值可以分成k类,第i类有Oi个观测值,则检验统计量为:

8、方差分析

方差分析的逻辑:

把观察值的总变异分解为两个或多个部分,除随机误差外,其余各部分变异可由某个或某几个因素或它们的交互作用来解释。

F分布的统计推断可阐明某一或某些因素或因素间交互作用就是否对观察值有影响。

单因素方差分析的逻辑与步骤:

（1）模型与假设

（2）平方与的分解与F检验

（3）关联强度与效应值

（4）多重比较

（5）前提假设

方差分析的前提条件:

总体服从正态分布;变异可加性;方差齐性;独立性。

单因素完全随机设计的方差分析:

关联强度与效应值:

实验处理引致的效应的大小或者数据的变异有多少部分就是由实验处理造成的。

关联强度:

因变量的变异被自变量解释的百分比。

事后比较:

F检验显著说明各组均值并不相同（至少两组不同）,但不能回答到底哪几组不同。

通过对各组均值之间的配对比较来进一步检验到底哪些均值之间存在差异。

事后比较的方法:

（1）费舍最小显著差异法:

对检验两总体均值就是否相等的t检验方法的总体方差估计加以修正（用MSE代替）。

（2）S-N-K,q检验:

把各组均值排序,用每一比较的两个均值在排序序列种相差的等级数来确定不同的q临界值。

（3）HSD检验:

与SNK法类似,不同之处在于不论各组均值的大小次序,均使用同一临界值。

（4）Bonferroni校正（以t分布作为检验分布,对检验水准进行调整）,不适用于比较的次数很多的情况。

方差分析结果的解释与报告:

单因素方差分析结果（范例）:

方差分析的结果（见表2）显示,教学方法对阅读理解的成绩有显著影响,F（2,15）=4、44,MSE=34、94,p=0、031<0、05,Etap2=0、37。

进一步的多重比较显示,当使用教学方法2时,被试的成绩显著高于使用方法1（p=0、015）或方法3时（p=0、030）;但就是,方法1与方法3之间则无显著差异（p=0、737）。

双因素结果方差分析（范例）:

标题提示与阅读速度对成绩的影响

方差分析的结果显示,标题提示对成绩有显著影响,F（2,66）=3、856,MSE=2、475,p=0、026<0、05,Etap2=0、105。

事后比较结果显示,当标题提示为正确与中性时,成绩显著高于标题提示为误导时的成绩（p<0、05）,但前两者无显著差异。

方差分析还显示,阅读速度对成绩有显著影响,F（1,66）=21、573,MSE=2、475,p=0、000<0、01,Etap2=0、246,阅读速度为常速时的成绩比快速时更高。

更重要的就是,交互作用显著,F（2,66）=3、575,MSE=2、475,p=0、034<0、05,Etap2=0、098,也就就是说,标题提示对成绩的影响会随着阅读速度的不同而不同。

简单主效应检验显示,阅读速度为快速时,标题提示为正确时的成绩显著高于标题提示为中性（p=0、031）与误导时（p=0、001）的成绩,但后两者无显著差异（p=0、247）;而当阅读速度为常速时,标题提示对成绩无显著影响F（1,66）=1、560,MSE=2、475,p=0、218,Etap2=0、045。

两因素完全随机设计的方差分析:

适用情形:

有2个自变量,自变量A有p个水平,自变量B有q个水平,共有p*q种处理。

比单因素多了一个交互作用的离均差平方与。

交互作用:

交互作用显著以后,还要做进一步的简单主效应的检验。

多重比较:

小结:

F检验:

主效应与交互作用就是否显著。

多重比较:

对显著的主效应进行多重比较。

简单主效应检验:

检验因素A（B）在B（A）各个水平上的简单主效应,若显著,继续就简单主效应进行多重比较。

9、相关