心理统计串讲资料.docx
《心理统计串讲资料.docx》由会员分享,可在线阅读,更多相关《心理统计串讲资料.docx(28页珍藏版)》请在冰豆网上搜索。
心理统计串讲资料
心理统计串讲资料
第一章绪论
第一节 心理统计的作用和内容
心理统计是统计学的原理和数学方法在心理学领域中的应用(填空)
第二节 心理统计的内容
² 心理统计分描述统计和推论统计两大部份
² 描述统计:
是把实验中所得到的数据进行概括性的整理,从中得出实验者可利用的信息。
描
述统计还常用表和图将实验数据形象地表示出来。
描述统计的指标有三类:
集中量数、差异量数和数据间的相关。
² 推论统计:
就是从样本的数量特征去推论总体的数量特征。
它包括一系列的统计程序:
推论
的假设、推论的方法步骤和检验推论的可靠性的各种方法等。
² 描述统计和推论统计是两个相互联系的部分。
对样本数据的描述和归纳是进一步推论的基础在描述统计准确无误的基础上的推论才具有科学的价值。
第二章 数据的初步整理
第一节 实验数据的类型
² 计数数据:
是准确数,它是一个一个数出来的。
数据形式为计数数据的变量称为离散型变量。
² 测量数据:
是近似数。
测量数据是通过测量工具得到的。
数据形式为测量数据的变量,称为连续性变量。
² 上限:
就是一个数的最末位加上半个单位。
² 下限:
就是一个数的最末位减去半个单位。
第二节 用表整理实验数据
² 常用的表格有三种:
原始数据表、次数分布表、实验结果表
² 全距:
就是数据中最大数值的上限与最小数值下限的差。
² 组距:
就是某一组数据上限与下限的差。
² 中点:
符号X’。
假设数据均匀地分布在组距之间,这一组数值的代表点叫中点。
它是这一组数值的上限与下限中间一点的数值。
公式
比例:
符号小写p。
部份比全部的比值就是比例。
比例是将全部数据作为一个整体。
定总量为1,部份为分量,分量总是总量的几分之几,用小数或分数表示,比例值永远小于1.
第三节 用图表达实验数据
² 图分为平面图和立体图。
² 横轴称为X轴(横坐标),纵轴称为Y轴(纵坐标)。
X轴与Y轴垂直交于零点,横坐标常用于表示心理实验中的自变量(刺激变量)。
纵坐标表示心理实验中的因变量。
² 常用的图有直条图、直方图、曲线图(折线图)。
² 当横坐标代表的数据是计数数据时只能画直条图和直方图。
² 当横坐标代表的数据是测量数据时,可以画直方图和曲线图。
² 直方图的横坐标在表示测量数据时是以各组数的上下限标点的。
直方图的纵坐标必须从0开始。
² 多边图的横轴用各组的中点标点。
² 累积曲线图的横坐标是以组上限标点的。
第四节 数据的分布形态
² 正偏态:
当偏斜的一边趋向正数的方向,叫正偏态。
² 负偏态:
当偏斜的一边趋向负数的方向,叫负偏态。
² 双峰分布:
是由于数据中混有性质不同的两种数据。
第三章 集中趋势的测量
第一节 平均数
一、算术平均数
² 算术平均数:
符号,是集中趋势的重要指标。
公式
² 极端数值:
一组数据中存在比其它数大得多或小得多的个别数据,该个别数据就是极端数值。
二、加权平均数:
² 加权平均数:
符号,已知几组数据各自的平均数,又知道这几组的数据个数不相等时,
需要计算总平均数,就一定要用加权平均数方法计算总平均数。
² 加权百分数的计算:
² 平均数的使用:
当数据中没有极端数值;后面的计算需要时首选平均数;
当数据中存在极端数或末端存在只有位数而无数值的情况;当数据中存在两种不同性质的数据时,不可以用平均数。
要求:
辨别使用条件,应用题的计算,解释,选择题。
第二节 中数和众数
一、中数:
符号mdn,是一组按大小排列的数据中位置居中的那个数,它将数据分为大的一半和
小的一半。
² 中数的计算:
未分组的数据中数的计算
1.数据个数为奇数,且中数位置处无相同数据,中数位置=(n+1)/2;该位置的数值为中数。
2.数据个数为偶数,且中数位置处无相同数据:
中数位置置于两个数之间,mdn=(小+大)/2
² 运用:
代表性较平均数小;当数据中有极端数值或末端有数位无数值的情况下应使用中数
表示数据的集中趋势。
如:
实验中有被试不能完成实验任务时,只能使用中数。
二、众数
众数:
符号Mo。
就是在数据中出现次数最多的哪个数。
位于峰值处。
第三节 平均数、中数、众数的比较(考运用)
² 用平均数作为偏斜方向的指标,为负偏斜;为正偏斜;
² 当平均数大于中数或众数,曲线为正偏斜,当平均数小于中数或众数,曲线为负偏斜。
平均数的代表性最大,其次是中数,最后是众数;
² 当数据没有极端数值,分布比较对称,应选用平均数;当数据分布比较偏斜,分布一端有极端数值或者有数位无数值时,应选用中数。
当需要很快和粗略地了解数据的集中趋势时,可选用众数。
第四章 离中趋势的测量
² 定义
差异量数:
表示数据离散程度的指标,称为差异量数。
指标有:
全距、四分差、方差、标准差等。
² 差异量数与集中量数的关系(填空)
差异量数大,集中量数的代表性就小;差异量数小,集中量数的代表性就大。
当差异量数为零时,集中量数的代表性最大。
因此在描述一组数据的全貌时,集中量数和差异量数是缺一不可的两个指标。
² 常用的差异量数有全距、四分差、标准差和方差、离中系数等。
第一节 全距、百分位距与四分差
一、全距
全距:
是一组数据中最大数的上限与最小数下限的差,它是最简单的差异量数。
二、百分位距
1、 百分点与Pp百分位RX ,百分位和百分点是同一事物的两个侧面,百分等级表示的是位置,百分点表示的是该位置上的数值。
利用百分点和百分等级可以描述某个个体与整个分布的关系。
三、四分差
² 四分差:
符号Q;表示按大小顺序排列的一组数据中间50%个数据的离散程度的指标。
² 在描述一组数据时,集中量数使用中数,离中量数应选择使用四分差。
² 四分差的计算公式:
² 计算步骤:
排序、求出Q1、Q3的位置;求出Q1、Q3的值;再套公式计算。
(例题见书)
² 四分点的应用:
可以通过四分点的数值,了解一组数据的偏斜情况:
(选择或填空)
在对称的分布中:
Q2-Q1=Q3-Q2
在正偏态分布中:
Q2-Q1<Q3-Q2
在负偏态分布中:
Q2-Q1>Q3-Q2
第二节 方差与标准差
² 方差:
符号S2,又称变异数。
它是以数据中每一数值与均值的差的平方和的均值作为离散程度的指标。
公式4.5
² 标准差:
符号S,它是方差的正的平方根,容易受到极端数值的影响,与平均数配合使用。
未分组数据。
公式4.6
² 定义:
离中系数:
符号CV。
是表示数据离散程度的相对指标。
公式4.8
² 离中系数的应用:
当两组数据的单位不同时不能直接比较S;两组数据单位虽然相同但平均数相差过大时也不能直接进行比较S。
因此,必须使用CV。
要求:
定义、公式、会解应用题,计算,解释结果。
第五章 正态分布和z分数
一、正态分布
² 正态分布:
是一个单峰曲线,中间高,两边逐渐下降,在正负一个标准差的地方有拐点,
两端永远不与横轴相交,两侧完全对称的钟形曲线。
² 决定曲线位置和形态的关键数值是分布的平均数μ,和标准差σ。
μ值决定曲线最高点在横轴上的位置。
σ值决定曲线的形状,是高耸还是矮平。
任何特定的正态分布的确定的性质是由公式中的μ和σ决定的。
二、z分数
² z分数:
也叫标准分数,它是以标准差为单位去度量某一原始分数偏离平均数的距离,从
而确定这一数据在全体数据中的位置。
标准正态分布有两个性质:
,S2=1。
公式:
三、正态分布表检验的临界值.05双侧1.96;单侧1.65;.01双侧2.58;单侧2.33。
第六章 数据间的直线相关
第一节 相关的变量
² 相关:
是指变量之间存在着某种相互关系,当一列变量变化时,另一列变量也随之变化。
这两列变量称为两列相关变量。
² 正相关:
当两列相关变量中,如果变量变化的方向是一致的,它们的关系为正相关。
² 负相关:
当两列相关变量中,如果变量的变化方向是相反的,它们的关系为负相关。
² 散布图:
是用来了解和表示两列变量之间相互关系的图。
可以观察到变量相关的性质和相
关的程度。
² 完全相关:
是指一列变量的变化引起另一列变量的变化时,按某种固定的比例变化。
因此
所有的散点都在一条直线上。
有完全的正相关和完全的负相关两种。
² 部分相关:
指散点图的点不是落在一条直线上,而是散落在一条直线的两边呈椭圆形。
椭
圆形越窄相关程度越高,椭圆形越宽相关程度越低。
² 零相关:
是指散点图上的点无规律地散落在图上,占的面积很大且呈圆形。
说明两列变量
没有关系,各自独立。
第二节 相关系数
² 相关系数:
用于表示两列变量之间相互关系的性质和密切程度的指标叫相关系数。
一、积差相关系数
² 定义:
符号r。
是由z分数计算出来的,表示变量之间相关性质和程度的指标。
积差相关系数的范围 -1.00≤r≤+1.00。
² 计算积差相关系数的条件:
趋向于正态分布的测量数据。
数据对的对数要至少大于30,最好50以上。
² 公式:
二、等级相关系数
² 等级相关系数:
符号rs,经常用到的表示两列变量相关性质和程度的指标。
它的精确性不
如积差相关系数,只能看成积差相关系数r值的近似值。
公式:
² 应用条件:
任何能按大小排成等级的数据;无需知道数据的分布形态;所需数据对数较少。
要求:
会解应用题、计算、解释结果。
见例题6-2
三、应用相关系数要注意的问题:
相关的事物多数不存在因果关系。
第七章 推论统计
² 推论统计:
是根据概率论和逻辑学的原理,由一个随机样本的统计量平均数、标准差去推
测总体的平均数μ、标准差σ。
总体平均数和标准差统称为总体参数。
第一节 总体与样本
² 总体:
研究对象的全部称为总体。
常用X、Y表示。
² 样本:
总体中抽出的部分称为样本。
在统计推论时总存在两种误差:
系统误差和随机误差。
² 系统误差:
是由于抽样不当而造成的。
用含有系统误差的结果去推论总体,就会产生偏性估计导
致推论错误。
² 随机误差:
是在实验时随机出现的,是不可控制的因素造成的。
随机误差出现的规律是符合概率
的原则的,因此可以用概率的方法加以说明。
如果样本中只含有随机误差,就可以用来推论总体。
² 随机取样:
是指总体中的每一个个体,都有同等的机会被选中。
² 分层抽样:
就是使得样本的各种成份与总体一致。
因此在抽样前应对总体的各个成份的数量有所
了解。
采用随机方式抽取的样本,虽然与总体还存在误差,但这个误差可以用统计推论的理论和技术说明误差的大小和误差的范围。
² 自由度:
是指在统计推论时,能够独立变化的数据的数目。
第二节 样本分布
² 样本分布:
从总体随机抽取许多n相等的样本,由这些样本各自的统计量分别可以构成各个统计
量的次数分布,称为该统计的样本分布,最常用的是平均数的样本分布。
² 平均数的标准误:
符号,平均数样本分布的标准差称为平均数的标准误,表示组构成平均数
样本分布的所有平均数的离散程度。
² 大样本:
样本容量n≥30的样本,为大样本。
² 小样本:
样本容量n<30的样本,为小样本。
总体平均数的估计
利用估计:
总体平均数存在的区间。
常估计0.95、0.99置信区间。
第三节 平均数差异的样本分布
一、平均数差异的样本分布
² 平均数差异的样本分布:
是指分别来自于两个总体的许多对随机样本平均数的差异形成
的样本分布。
当样本容量大于30时,该分布呈现为正态分布,当样本容量小于30时,呈现t分布。
² 平均数差异的标准误:
符号,表示构成差异的样本分布的所有差值的离散程度。
是
由两个总体各自的平均数标准误合成的。
二、利用不同实验设计的估计:
两总体平均数差异存在的区间。
常估计0.95、0.99置信区间。
第八章 统计假设与单总体的假设检验
第一节 统计假设与两类错误
一、统计假设
² 虚无假设:
符号Ho,从无差别开始假设,即假设存在的差异仅仅是抽样误差,是符
合概率原则的随机误差。
² 备择假设:
符号HA,备择假设是从有差别开始假设。
假设差异不仅仅有抽样误差,还
包括真正的差异。
² 常用的显着性水平:
显着性水平表示推翻虚无假设出错误的概率。
在统计上常用.05、.01
显着性水平。
写作α=.05,α=.01。
如果.01<P≤.05,该差异就在.05水平上显着,
如果p≤.01,该差异就在.01水平上显着。
二、两类错误
² 第一类错误:
是指当虚无假设不应被推翻时而被推翻了,即将随机误差当成了真正的差异。
² 第二类错误:
指当应该推翻虚无假设时而没有推翻,即将存在的真实差异当成了随机误差。
第九章 平均数差异的显着性检验
当比较不同总体是否存在差异时,需要分别从不同总体中抽取样本,计算出各自的样本平均数,两个总体的样本平均数之间总会存在差别,这个差别里如果仅包含抽样误差,说明两个总体没有差异,是相同的总体,或者是同一总体。
如果该差别里不仅有抽样误差,还包含来自自变量不同水平的影响,就说明两个总体存在差异。
由两个样本平均数对两个总体是否存在的差异进行推论,需要用平均数差异的显着性检验。
² 显着性检验:
通过样本平均数差别来推论总体平均数是否真正存在差别,并确定差别显着的水平或可靠性。
共四种类型平均数差异的显着性检验,主要是双侧检验。
² 双侧检验:
检验的是总体平均数之间是否存在差异,实验之前对总体平均数的大小无意向,因此提问没有方向性,如男女理解能力。
检验的临界值:
大样本0.05水平1.96,0.01水平2.58。
小样本根据t的自由度查t表。
一、平均数差异显着性检验
1. 被试间大样本平均数差异的t检验(不相关大样本):
书上例题9-1
要求:
公式、计算、检验、解释。
⑴分别计算; ; 公式7.9;
⑵计算 公式7.10。
⑶计算z值
⑷检验 2.58>z≥1.96 .05水平推翻虚无假设(P≤.05);
z≥2.58 .01水平推翻虚无假设(P≤.01)。
z<1.96 接受虚无假设(P>.05)。
⑸结论:
(要求写具体)。
2. 被试间小样本平均数差异的t检验(不相关小样本):
例题:
9-2要求解应用题。
⑴分别计算; ; 公式7.9;
⑵计算 公式7.10。
⑶计算t值
⑷检验:
样本遵从t分布,计算出df值,df=n1+n2-2,根据df值查出临界值,进行检验。
t>临界值,推翻虚无假设(P<.05)。
t<临界值,接受虚无假设(P>.05)。
⑸结论:
(要求写具体)。
3. 被试内大样本平均数差异的t检验(相关大样本):
书上例题9-3要求会解应用题。
⑴分别计算; ; 公式7.9;
⑵计算 公式7.11
⑶计算z值
⑷检验 2.58>z≥1.96 .05水平推翻虚无假设(P≤.05);
z≥2.58 .01水平推翻虚无假设(P≤.01)。
z<1.96 接受虚无假设(P>.05)。
⑸结论:
(要求写具体)。
4. 被试内小样本平均数差异的t检验(相关小样本):
例题9-4
简捷法(综合应用题)要求会计算、检验、解释。
⑴分别计算相关样本各自的样本平均数、。
⑵计算 、 、
⑶计算t值
⑷检验:
计算相关小样本的df值,df=n1-1,根据df值查出临界值,进行检验。
t>临界值,推翻虚无假设(P<.05)。
t<临界值,接受虚无假设(P>.05)。
⑸结论:
(要求写具体)。
二、平均数差异检验的程序(综合应用题)
1.计算两平均数各自的平均数样本分布的标准误:
根据公式7.9
2.计算平均数差异的样本的标准误。
根据公式7.10(被试间)、7.11(大样本被试内)。
3.计算出z(t)值。
大样本(数据个数大于或等于30)计算z值,小样本(数据个数小于30)计算t值。
4.检验:
大样本z(t)直接与1.96(.05)、2.58(.01)比较。
如果是小样本,要计算出df值,被试间:
df=n1+n2-2;被试内:
df=n-1
5.与查表所得的z值或t值比较大小,
如果z<1.65(单侧)或z<1.96(双侧),则P值小于0.05水平,接受虚无假设;
如果z>2.33(单侧)或z>2.58(双侧),则P值小于0.01水平,推翻虚无假设;
6.结论:
推翻(或接受)虚无假设,在0.01(或0.05)水平差异显着(或无显着差异)。
第十章 回归分析
1、回归:
当两种变量间存在着一定程度的相关时,一种变量有向另一种变量的平均数趋近的现象。
这种现象不叫做回归。
2、当XY两种变量间是相关的,预测有两种可能:
一种是从已知的X去预测Y;另一种则是从已知的Y去预测X。
当二变量间相关程度越大,预测就越可靠;否则,相关程度越小预测的误差就越大。
3、从已知的X测验分数对Y测验分数的最好预测就是相应纵列中各Y值的平均数。
4、回归方程式:
是从一变量的数值预测另一变量相应数值的直线方程式,二变量部分相关时,有两条回归方程式。
5、回归系数(bxy):
是由Y变量推测X变量的回归线的斜率,叫做该回归线的直线方程的回归系数。
6、在这里,最优拟合线叫做回归线,这条直线的斜率叫做回归系数(B),这条直线的方程式叫做回归方程式。
7、根据直线方程式的通式Y=bx+a可以写出回归方程式的能式为:
,是预测值,有一定程度的误差,当X和Y的相关系数越大时,误差也就越小。
8、要求会建立回归方程利用回归方程进行预测。
l 当从X预测Y时,回归方程式为:
公式10.1
公式10.2
公式10.3
l 当从Y预测X时,回归方程式为:
P117 公式 10.4 10.5 10.6
第十一章 二项实验的设计和结果的检验
一、概念:
l 成功的概率:
在二项实验中将希望见到的事件发生的概率定为成功的概率。
符号为p。
l 失败的概率:
在二项实验中将不希望见到的事件发生的概率定为失败的概率。
符号为q。
当对二项实验的结果进行检验时,在n<10的条件下,只能用二项分布的公式来计算正确答案的概率;在n≥10的条件下,才可以用正态分布的方法来计算。
要求:
会使用公式做检验,根据是几择一,确定p值,几择一p值就是几分之一。
注意:
公式中的X为选对次数的下限。
二项式 当n≥10时 可用正态分布替代二项分布进行检验
二、计算程序
⑴二项分布的平均数 mB=np 公式11.3
⑵二项分布的标准差 公式11.4
⑶ 公式11.5
二项分布检验常使用单侧检验:
l 单侧检验:
检验问题得提出带有方向性。
发展是单方向的、与一个标准或一个总体平均数进行比较。
如某种发展能力、学期前后比较、某种教学方法实施的效果前后比较。
⑷单侧检验 临界值:
0.05水平1.65, 2.33≥z≥1.65 .01
0.01水平2.33。
z≥2.33 P≤.01
⑸结论:
第十二章 卡方检验
用来评价两类或两类以上刺激的实验的结果。
当实验的数据有二组或二组以上,而且都是不连续的变量(如个数、次数)时,要检验各组的差异是否显着就须用χ2分布来进行计算。
第一节 χ2检验的依据和单因素的χ2检验
χ2:
读作卡方,它是实际观察次数与假设观察次数偏离程度的指标。
χ2越大,偏离程度越大。
公式12.1。
f:
实得的次数 F:
假设平均数
计算程序:
(简单应用题)
1. 先要求出F值。
F值就是把在各种条件下观察到的次数加以平均。
2. 代入公式求出卡方。
3. 计算自由度:
对卡方分布而言,自由度和观察的类别有关。
即:
df=k-1;k:
观察的类别。
4. 根据df,查卡方值表,检验水平.05或.01,>.05某一df的临界值P<.05。
>.01某一df临界值P<.01
l 当df=1时,需要对计算的χ2值进行较正,再计算χ2值。
校正的方法f>F,f-0.5。
fl 当任何假设的次数小于5时,就不宜用χ2检验,否则,χ2检验就不可靠。
l X2 分布和t分布一样,也因自由度不同而且各异,不过对于t分布来说,自由度和样本的大小有关对联于卡方分布来说,自由度和观察的类别有关。
结论:
第十三章 单因素设计方差分析 第十四章多因素方差分析
一、简介方差分析
1.方差分析的原理:
方差分析是从因变量的总变异中将不同来源带来的变异分离出来,将它们分别与随机变量所带来的变异进行比较,求出一个F或几个F比值,分析F比值在F分布中发生的概率。
检验是否存在由实验的不同处理带来的变异,说明各个总体平均数是否存在差异。
2.概念: