统计心理学学笔记Word下载.docx
《统计心理学学笔记Word下载.docx》由会员分享,可在线阅读,更多相关《统计心理学学笔记Word下载.docx(36页珍藏版)》请在冰豆网上搜索。
大样本下的
相应的
t
检
验
转化为顺序型
转化为顺序
顺序型符号检验法曼-惠特尼
U
维尔克松
T
克-瓦氏单向
方差分析
弗里德曼双
向等级方差
Spearman
等级相关
命名型χ2
匹配度检
χ2
独立性检
分析
符号检验法
独立性检验
一、描述统计
描述统计是指用来整理、概括、简化数据的统计方法,侧重于描述一组数据的全貌,表达一件事物的性质。
(一)统计图表
统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点。
它们是对数
据进行初步整理,以简化的形式加以表现的两种最简单的方式。
在制定统计图表之前,一般首先要对数据进行以
下两种初步整理:
①数据排序:
按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列
②统计分组:
根据被研究对象的特征,将所得到数据划分到各个组别中去
1.统计图
统计图:
用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式
组成:
坐标轴、图号、图题、图目、图尺、图形、图例、图注
1
分类:
条形图、圆图、线性图、直方图、散点图、茎叶图
2.统计表
统计表:
将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式
隔开线、表号、名称、标目、数字、表注
简单表、分组表、复合表
(二)集中量数
集中量数又叫集中趋势,是体现一组数据一般水平的统计量。
它能反映频数分布中大量数据向某一点集中的情况。
1.算数平均数
(1)定义
算数平均数:
即所有观察值的总和与总频数之商,简称为平均数或均数
平均数一般与标准差、方差相结合使用。
n
i=1
N
i
(2)特点
①在一组数据中每个变量与平均数之差的总和等于零
②在一组数据中,每一个数都加上一个常数
C,所得的平均数为原来的平均数加常数
C
③在一组数据中,每一个数都乘以一个常数
C,所得的平均数为原来的平均数乘以常数
(3)意义
算数平均数是应用最普遍的一种集中量数,它在大多情况下是真值最好的估计值。
(4)优缺点
优点:
反应灵敏、计算严密、计算简单、简明易解、适合于进一步用代数方法盐酸、较少受抽样变动的影响
缺点:
易受极端数据的影响、不能在出现模糊数据时计算
2.中数
中数:
按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一般数据比它小,
等价于百分位数是
50
的那个数。
(2)算法
①数列总个数为奇数时,第
(n+1)/2
个数就是中数
②数列总个数为偶数时,可取位于中间的两个数的平均数作为中数
③分布中有相等的数时,将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法
(3)优缺点
计算简单、容易理解、不受极端值影响、能在有模糊数据情况下使用、可在顺序型数据时使用
代表性低、不够灵敏、稳定性低、需要排序、不能进一步做代数运算
3.众数
众数:
在次数分布中出现次数最多的那个数的数值
众数可能不只一个。
在正偏态分布时,平均数最靠近尾端,中数位于其与众数之间。
(2)优缺点
能在数据不同质的情况使用,能避免极端值干扰
不稳定、代表性差、不够灵敏、不能做进一步的代数运算
(三)差异量数
差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。
1.离差与平均差
离差:
分布中的某点到均值得距离,其符号表示了某分属于均值之间的位置关系而数值表示了它们之间的绝对距
离
2
离差之和始终为零。
x
=
-
μ
平均差:
次数分布中所有原始数据与平均数绝对离差的平均值
X
2.方差与标准差
和方:
每一个离差值平房求和
由于离差正负值互相抵消无法代表离中趋势我们引入和方的概念
-
(1)总体的方差和标准差
方差:
每个数据与该组数据平均数之差乘方后的均值,即离均差平房后的均数
作为样本统计量用符号
s2
表示,作为总体参数用符号
σ2
表示,也叫均方。
σ
2
=
SS
标准差:
方差的平方根
s
表示。
(2)样本的方差和标准差
样本的变异性往往比它来自的总体的变异性要小。
为了校正样本数据带来的偏差,在计算样本方差时,我们用自
由度来矫正样本误差,从而有利于对总体参数更好的无偏差估计:
S
n
-1
(3)性质
①每一个观测值都加一个相同的常数
C
之后,计算得到的标准差等于原来的标准差
②每一个观测值都乘以一个相同的常数
C,所得到的标准差等于原标准差乘以这个常数
(4)意义
方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述与统计推断分析中最常用的差异量数,它们
的优点有:
反应灵敏、计算严谨、计算容易、适合代数运算、受抽样变动影响小、意义简单明了
3.变异系数
当遇到下列情况时,不能用绝对差异量来比较不同样本的离散程度,而应当使用相对差异量数,最常用的就是差
异系数。
①两个或两个以上样本所使用的观测工具不同,所测的特质相同
②两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大
差异系数:
一种最常用的相对差异量,为标准差对平均数的百分比
s
(四)相对量数
3
1.百分位数
百分位数:
在整个分布中,在某一值之下或等于该值的分数的百分比,所对应的分数
百分位数和百分等级是同一操作定义的两端。
当我们求累计次数占总体的百分比是,所对应的分数和
百分比的值分
别为百分位数和百分等级。
2.百分等级
百分等级:
常模团体中低于该分数的人所占总体的百分比
百分等级一定要对应分数区间的精确上限。
百分等级和百分位数都可以由已知数据用差值法求解。
3.标准分数
标准分数:
以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,也叫
Z
分数
离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置。
(2)性质
①Z
分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量
②一组原始分数转换得到的
分数可正可负,所有原始分数的
分数之和为零
③原始数据的
分数的标准差为
④若原始分数呈正态分布,则转换得到的所有
分数均值为
0,标准差为
1
的标准正态分布
(3)优点
①可比性——不同性质的成绩,一经转换为标准分数,就可在同一背景下比较
②可加性——不同性质的原始数据具有相同的参照点,因此可相加
③明确性——知道了标准分数,利用分布寒暑表就能知道其百分等级
④稳定性——转换成标准分数之后,规定了标准差为
1,保证了不同性质分数在总分数中权重一样
(4)应用
①比较几个分属性质不同的观测值在各自数据分布中相对位置的高低
②计算不同质的观测值得总合或平均值,以表示在团体中的相对位置
③若标准分数中有小数、负数等不易被人接受的问题,可通过
Z'
=aZ+b
的线性公式将其转化成新的分数(如韦
氏成人智力量表)
(五)相关量数
由于实验法适用范围的限制,有的时候我们只能对变量间进行相关研究,也就是看两者是否有互相跟随的变化关系。
相关研究所得到的是一种描述统计,我们仅仅能用其描述两个变量互相跟随的程度大小,至于他们之间是否有因果
关系或者是共变关系则不可妄下定论。
相关系数:
两列变量间相关程度的数字表现形式
作为样本的统计量用
r
表示,作为总体参数一般用
ρ
正相关:
两列变量变动方向相同
负相关:
两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动
零相关:
两列变量之间没有关系,各自按照自己的规律或无规律变化
1.积差相关
也就是
Pearson
相关。
(1)前提
①数据要成对出现,即若干个体中每个个体都有两种不同的观测值,并且每队数据与其它对子相互独立
4
②两列变量各自总体的分布都是正态的,至少接近正态
③两个相关的变量是连续变量,也即两列数据都是测量数据
④两列变量之间的关系应是直线性的
(2)公式
SP
SSX
SSY
∑
xy
N
Y
也就等于
和
Y
共同变化的程度除以
各自变化的程度。
2.等级相关
Spearman
相关
(1)适用范围
①当研究考察的变量为顺序型数据时,若原始数据为等比货等距,则先转化为顺序型数据
②当研究考察的变量为非线性数据时
将原始数据转化为顺序型数据,仍然用
相关公式计算即可。
3.肯德尔等级相关
(1)肯德尔
W
系数
也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让
K
个被试对
件实物进行等级评定。
其原
理是评价者评价的一致性除以最大变异可能性。
12
Ri
代表评价对象获得的
个等级之和
代表等级评定的对象的树木
代表等级评定者的数目
(2)肯德尔
系数#
其与肯德尔
系数所处理的问题相同,但评价者采用对偶比较法,即将
件事物两两配对分别进行比较
ij
(n
-1)
⋅
(K
-1)
rij
为对偶比较记录表中
i>
j
格中的择优分数
4.点二列相关与二列相关
(1)点二列相关
适用于一列数据为等距正态变量,另一列为离散型二分变量。
5
rpb
⋅pq
st
p
是与二分称名变量的一个值对应的连续变量的平均数
q
是与二分称名变量的另一个值对应的连续变量的平均数
与
是二分称名变量两个值各自所占的比率
st
是连续变量的标准差
(2)二列相关
适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。
pq
sty
y
为标准正态曲线中
值对应的高度,查正态分布表能得到
5.Ф
适用于两个变量都是只有两个点值或只表示某些质的属性。
rΦ
ad
bc
(a
+
b)(a
c)(b
d
)(c
)
其中
a、b、c、d
分别为四格表中左上、右上、左下、右下的数据
二、推断统计
推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体。
进行推论统计的关
键在于所抽取的样本要能够尽量接近所要研究的总体。
(一)推断统计的数学基础
1.概率
概率:
表明随即时间出现可能性大小的客观指标
概率的定义包含以下两种,当观测次数够多时他们是相等的。
后验概率:
对随机事件进行
次观察,某一事件
A
出现的次数
m
与观测次数
的比值在
趋近无穷时所稳
定在的常数
p
先验概率:
在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数
除以结果总数
2.正态分布
当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态曲线,因此有“上帝偏爱正态分布”一说。
(1)特点
①正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值
②大部分的原始分数都集中分布在均值附近,极端值相对而言比较少
③曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交
④正态分布曲线转化为
z
分数后人以
分数与零点对应曲线下面积固定
(2)用法
①依据
分数求概率,即已知标准分数求面积
②从概率求
分数,即从面积求标准分数值
③已知概率或
值,求概率密度,即正态曲线的高
6
方差公式为σ=
npq
3.二项分布
二项分布:
对于一个事件有两种可能
B,但我们对这一事件观察
次,事件
发生的总次数的概率分布就是
二项分布
二项分布的均值为
μ
pn
标准差的公式为σ
4.抽样原理与抽样方法
(1)抽样原理
抽样的基本原则是随机性原则,所谓随机性原则,是指在进行抽样时,总体中每一个个体是否被抽选的概率完全
均等。
由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者
说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体。
(2)抽样方法
①简单随机取样法
②系统随机取样法
③分层随机取样法
④多段随机取样法
5.抽样分布
样本分布:
样本统计量的分布,是统计推论的重要依据
(1)正态分布及渐近正态分布
样本统计量为正态分布或者接近正态分布的情况都可根据正态分布的概率进行统计推论。
总体分为正态或接近正态,方差已知,样本平均数和方差的分布为正态分布
①样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:
μX
σ
②样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:
σσ
2n
(2)t
分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作
分布当自由度为
正无穷时的特例。
总体分布为正态,方差未知时,样本平均数的分布为
分布:
7
sn-1
sn-1
(3)χ2
分布的构造是从一个服从正态分布的总体中每次抽去
个随机变量,计算其平方和之后标准化的一个分布。
分
布曲线下的面积都是
1,但伴随着
取值的不同,自由度改变,曲线分布形状不同,而当自由度趋近于正无穷时
分布即为正态分布,因此其于
分布一样都是一族分布,而正态分布都是其中的特例。
χ
(4)F
如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出
χ2,则:
F
χ1
df1
df2
更多情况下,我们所计算的
两样本取自相同总体,此时可将上式化简为:
sn1-1
sn2
(二)参数估计
当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体
的情况,称为总体参数估计。
总体参数估计问题可以分为点估计与区间估计。
1.点估计、区间估计与标准误
良好估计量的标准
①无偏性——用多个样本的统计量估计总体参数的估计值,其偏差的平均数为零
②有效性——当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方
差越小越好
③一致性——当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数
④充分性——样本的统计量是否充分地反映了全部
个数据所反映总体的信息
点估计:
用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计结果也以一个点的数值表示
区间估计:
根据估计量以一定可靠程度推断总体参数所在的区间范围,
这个区间就叫做置信区间,相应的概率成为置信度,这两个量是共通变化的,置信区间越大,置信度
越高;
区间估计是用数轴上的一段距离表示未知参数可能落入的范围及落入该范围的概率。
标准误:
样本平均数分布的标准差
总体方差未知时用估算的总体方差计算标准误。
2.总体平均数的估计
8
Zα
<
22
当总体方差未知时,则使用
分布对应置信度
3.标准差与方差的区间估计
(1)标准差的区间估计
(2)方差的区间估计
-1)sn-1
-1)sn-1
χαχ
21-α
(三)假设检验
可以说,每一个实验的存在,仅仅是为了给事实一个反驳虚无假设的机会。
——R.A.Fisher
1.假设检验的原理
假设检验:
统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在
差异
假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,
而不是全部。
(1)两类假设
对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。
一般来说证伪一件事情比证实一件事
容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优
于证明备择假设。
备则假设:
因变量的变化、差异却是是由于自变量的作用
往往是我们对研究结果的预期,用
H1
虚无假设:
实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在
观察到的差异只是随机误差在起作用,用
H0
(2)小概率原理
小概率原理:
小概率事件在一次试验中几乎是不可能发生的
至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显著性水平
α。
在检验过程中,我们假
设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。
之后将其与我们实现界定好的
显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。
(3)两类错误
(本部分内容请参照实心信号检测论对照来看。
——MJ
注)
Ⅰ型错误:
当虚无假设正确时,我们拒绝了它所犯的错误,也叫
α
错误
研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有”
Ⅱ型错误:
当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫
β
假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂”
两类检验的关系
①α+β
不一定等于
②在其他条件不变的情况下,α
不可能同时减小或增大
9
(4)检验的方向性
单侧检验:
强调某一方向的检验,显著性的百分等级为
α
双侧检验:
只强调差异不强调方向性的检验,显著性百分等级为
α/2
对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单
侧检验犯
错误的概率较小,我们也说它的检验效力更高。
(5)假设检验的步骤
①根据问题要求,提出虚无假设和备择假设
②选择适当的检验统计量
③确定检验的方向性并规定显著性水平
④计算检验统计量的值
⑤将统计量的值与临界值对比做出决策
2.样本与总体平均数差异的检验
(1)总体正态分布且方差已知
zobs
μ0
其中σ
μ0
和σ
0
分别为总体的平均数和方差
(2)总体正态分布而方差未知
tobs
sX
sX
S
而
为用样本和方估算出的总体方差
3.两样本平均数差异的检验
Zobs
X1
DX
这是两样本平均数检验的通用公式,所不同的仅在于标准误的计算
(1)总体方差已知
①独立样本
σ1
n1
②相关样本
n2
DX
σ1
2rσ1σ
为两组变量之间的相关系数
(2)总体方差未知
①独立样本(方差差异不显著时)
n1s1
n2s2
n1
n2
2n1n2
10
a.相关系数未知:
D
b.相关系数已知:
s1
2rs1s2
为每一对对应数据之差
4.方差齐性检验
(1)样本方差与总体方差
当从正态分布的总体中随机抽取容量为
的样本时,其样本方差与总体方差比值服从
χ
ns2
由自由度
df
-1查
表,依据显著性水平判断
(2)两个样本方差之间
s大
s小
其中当两样本自由度相差不大时可用
sn
代替
查表时
df1
-1,
df2
s2
5.相关系数的显著性检验
①积差相关
a.当
ρ=0
时:
r
1-
b.当
ρ≠0
先通过查表将
转化为费舍
Zr
Zρ
然后进行
Zρ
②等级相关和肯德尔
在总体相关系数为零时:
查各自的相关系数表,判定样本相关显著
(四)方差分析
1.方差分析的原理与基本过程
(1)方差分析的概念
方差分析的目的是推断多组资料的总体均数是否相同,也即