心统115章复习提纲.docx

资源描述

心统115章复习提纲.docx

《心统115章复习提纲.docx》由会员分享，可在线阅读，更多相关《心统115章复习提纲.docx（17页珍藏版）》请在冰豆网上搜索。

心统115章复习提纲.docx

心统115章复习提纲

心统12-15章复习提纲

第12章相关

1、相关的概念

相关是度量和描述两个变量之间关系的一种统计技术。

数据要求：

一定要有至少两个变量，两组分数。

应用相关的研究情境：

预测效度-如果两个变量间有强相关,我们就可以根据一个变量的值，预测另一个变量的值。

例如,如果知道某些人格特征，可以预测员工绩效。

相容效度–如果发明新的心理测验（测验A）,想知道它是否测量了X，就需要知道测验A是否与X相关。

效标关联效度--如果发明新的量表，管理潜能量表来预测晋升所需时间，这个量表分数应当与晋升所需时间相关。

重测信度–如果对同一组被试两次用相同的测验,将两组分数做相关。

如果测验是可信的,两次测验应当得到相似的结果,产生高相关。

理论验证（构想效度）–比如验证社交技能与焦虑的相关。

相关表明变量X和Y之间关系的3个特征：

1）关系的方向：

正相关（正数）意味着两个变量向相同的方向变化。

亦即一个变量增加，另一个变量也增加。

负相关（负数）意味着两个变量向相反的方向变化。

亦即，一个变量增加，另一个变量反而减少。

2）关系的形式：

本课集中讨论线性（直线）相关，但两变量的关系也有其他形式。

3）关系的程度：

相关也度量了X和Y间关系的强度.相关系数的值在-1和+1之间。

0相关意味着没有关系.+1意味着完全的正相关，-1意味着完全的负相关。

0.7+意味着较强相关，0.3-0.5也认为有相关。

考察相关应先看散点图，获得直观的结果。

2、相关的解释

数值的大小形容关系密切程度，但不能定量描述，正负表示相关的方向。

解释关系强度应考虑r^2（等于回归和方/总和方）,不只是r。

----------原理见卡方检验部分Y方差的分解。

它表明了：

一个变量的方差中，由X和Y间的相关解释的方差的比例。

当r=0.7时，r2=0.49，即Y变量49%的变异能够由X推出。

积差相关的效应大小——Cohen’sConvention：

r=.10小的效应

r=.30中等效应

r=.50大的效应

积差相关的相关系数与统计效力（检验是否相关）换算表：

（双尾）

N\相关系数

0.1

0.3

0.5

0.06

0.13

0.33

0.07

0.25

0.64

0.08

0.37

0.83

0.09

0.48

0.92

0.11

0.57

0.97

100

0.17

0.86

相关描述两个变量之间的关系,但并不能解释变量相关的原因。

在相关研究中,研究者没有操纵一个（或几个）变量而保持其他变量不变。

因此，相关计算绝不能得到因果性推论。

伪相关（第三变量）：

一位研究者发现某月洒咖啡的次数和空难次数呈强的正相关。

（飞行次数多所以空难多，洒咖啡多）

一位研究者发现警察局的规模X和犯罪量Y呈强的正相关。

（城市大，所以警察局大，犯罪量大）

这里我们发现另一个变量Z,同时导致X和Y,X和Y其实并不是因果关系，而是共变关系。

数据中的分数范围对相关有非常大的影响：

----奇异值是否可靠？

极端的分数对相关有非常大的影响：

显著性与n有关，相关性与n关系不大。

将相关的概念数量化：

我们主要讨论两种相关,Pearson积差相关,Spearman等级相关。

r=X和Y共同变化的程度/X和Y各自变化的程度=X和Y的协方差/X和Y各自的方差

共变意味着随着X变化,Y也变化。

r=1.0（或-1.0），即完全的相关。

意味着分子分数等于分母分数。

3、离差的乘积和SP：

求积差相关的数据资料的要求：

要求成对的数据，每对数据之间相互独立，数据不宜少于30对，否则会没有代表性；两列变量各自的总体分布均为正态分布；两个相关变量是连续变量；两列变量之间的关系是直线型的。

定义公式：

SP=∑（X-Xbar）（Y-Ybar）——对于每一点与X和Y的平均值的差，即离差，求两个离差的乘积，再求和。

SP的计算公式：

∑XY-∑X∑Y/n

四、Pearson相关的计算：

也称积差相关------不受数据单位转换的影响

r=SP/sqrt（SSxSSy）——分子SP是X和Y协方差的指标,分母是X和Y各自的变异。

计算时列表：

X,X^2，Y,Y^2，XY

五、相关系数的显著性考验：

-----------推论统计，n较小，r又不很大时需要检验

总体参数ρ，样本统计量r。

虚无假设和备择假设：

双侧:

H0:

ρ=0，X和Y之间无相关

H1:

ρ≠0

单侧:

H0:

ρ=0，没有正相关

H1:

ρ>0

df=n-2

--------------与t检验无关

在论文中报告相关：

对数据的相关分析显示受教育年限与年收入有显著相关，r（474）=+.66，p＜.01，双尾。

6、等级相关-----数据不是等距或等比的，而是顺序等级，或者总体不是正态，不满足积差相关的要求

Spearman相关（斯皮尔曼相关）-----可以为负，是从积差相关推出的，可以认为是积差相关的一种特殊形式

一种非参数检验；---------保守，不敏感

用于顺序型数据、非线性数据；要求只有两列变量，具有等级变量的性质和线性关系。

对于等距等比类型数据，转化成顺序性数据亦可计算等级相关，但不必考虑分布是否正态。

即适用范围较广，但是精确度降低。

rs=1-6ΣD^2/n（n^2-1）；

D——各自排序后的等级差，对于相同排名，取排名均值进行计算，若相同排名较多，准确度下降。

肯德尔和谐系数：

-----多组，可以为负

等级相关的一种；

适用资料：

适用于k个评价者，评价N个事物的等级变量资料，每个评价者对N件事物的某方面按顺序做出由1到N的排序；如果各评价者之间兴趣差异较大（评分者信度低），则各项目获得的等级和之间差异就较小，反之，各项目等级和差异较大，肯德尔使用了“等级总和变异性”的概念，W是每一评价对象实际得到的等级总和的变异与最大可能等级总和变异（各评价者评价完全一致）的比值。

-----原理

多用于评分者信度分析，0.6+意味着较好的信度

--------k个评价者，N个评价对象，Ri代表某评价对象的所有评价者内排名之和。

遇到两个或两个事物以上等级相同，采用修正公式。

点二列相关-----质与量的相关

适用资料：

考察一列为正态等距或等比变量，另一列为按性质的划分的二分命名变量（可以人为地将等距或等比变量化为二分命名变量，适用于双峰分布的总体）之间的相关程度。

常用于试卷的信度分析，比如是非类测验题目的内部一致性问题，某一题的对错与整个测验总分之间的相关可以使用点二列相关。

公式：

rpb=（xpbar-xqbar）*sqrt（pq）/St-------p、q为两个类目所占百分比，St为总体标准差。

rpb^2=t^2/（t^2+df），df=N1+N2-2-------与独立样本t检验的关系，可证，将SSxp+SSxq用SSx表示出来即可证明

第13章回归

1、研究情境

多个自变量与一个因变量关系的集中趋势由回归方程简单描述，回归方程可以用于预测，它建立了变量之间的精确关系。

（用数学模型表示相关关系）一次函数是最简单的形式，只有一个自变量的线性回归乘坐简单线性回归。

回归分析与相关分析均研究并度量两个或两个以上变量之间的关系，广义上说相关分析包括回归分析，但严格地讲，回归分析是以数学形式表示变量之间的关系，相关分析则是检验或度量这些关系的密切程度，两者相辅相成，密切的相关关系意味着通过回归模型推算的预测值较为准确。

线性回归的基本假设：

X与Y在总体上具有线性关系；与X值对应的Y的所有子总体都服从正态分布；不同X值对应的Y值之间相互独立；特定X水平对应的误差的变异量应该相等。

线性方程-斜率-截距，根据自变量预测因变量是回归的基本目标，尽量得到最佳拟合线。

r=1时，散点图的点全部位于一直线上，易得最佳拟合线。

不完全相关时，最佳拟合线不是显而易见的，可能有多条拟合线。

2、最佳拟合线

目的是使误差最小，即这条线距离所有数据点最近，这条线给定X的值，估计Y值所产生的误差最小，是对Y的最佳估计。

最小平方法：

SS误差=∑（Y-Yhat）^2最小。

最佳拟合线的斜率公式：

b=SP/SSx=rSy/Sx

最佳拟合线的截距公式：

a=Ybar-bXbar

3、解释回归

1）预测值不是百分之百准确的（除非r=±1.0）。

注意散点图中数据点并没有全部位于回归线上，所以有误差。

估计的标准误描述了用来估计Y的典型误差。

2）回归方程不能对X值范围之外的数据作出预测。

回归估计的标准误：

回归方程允许我们作出预测，但未给出预测准确性的信息。

估计的标准误给出了回归线与数据点之间标准距离的量度，回归估计的标准误在概念上类似标准差。

-------r^2=SSR/SST

计算：

首先计算误差的平方和，SS误差=∑（Y-Yhat）^2。

将误差的平方和除以自由度（即误差的方差），S^2=SS误差/dfdf=n-2

为求得估计的标准误，将误差的方差取平方根（类似标准差）。

最后得到公式:

S误差=sqrt（∑（Y-Yhat）^2/n-2）----Yhat的计算需要Ybar与b，故失去两个自由度，用于计算估计值的置信区间

标准误与相关系数之间的关系：

SS误差=（1-r^2）SSY

回归方程和标准误：

回归方程描述了最佳拟合线和预测值，估计的标准误和相关系数则提供了预测的误差的信息。

第14章卡方检验

1、参数与非参数检验

参数检验

用于等比/等距型数据

对参数的前提：

正态分布和方差同质

非参数检验

不用对参数进行假设

对分布较少有要求

用于类目/顺序型数据

没有参数检验敏感，效力低

因此在二者都可用时，总是用参数检验

对计数数据进行统计分析时，一般使用属性统计方法，这些统计分析一般依据卡方分布，故这类统计分析方法称为卡方检验，一般对数据总体的分布形态不作任何假设。

卡方检验方法能够处理一个因素的两项或多项分类的实际观察频数与理论频数（期望次数）分布是否一致的问题，或者说有无显著差异。

2、卡方匹配度检验

用样本数据检验总体分布的形状或比率，以确定观测与假设的一个因素（单因素检验）多项分类的分布的匹配度，是对次数分布的检验。

研究情境

1.在医生职业中，男的多还是女的多？

2.在三种咖啡中，哪种被中国人最喜欢？

3.在北京大学中，各国留学生的比例有代表性吗？

卡方匹配度检验的虚无假设-期望次数：

在医生职业中，男的多还是女的多？

在外科医生中，男的是否占80%？

最喜欢的咖啡品牌——A1/3，B1/3,C1/3

卡方匹配度检验的公式：

fe=pn

df=C-1（分类项数-计算理论次数时使用的统计量~“总数”个数）

χ2=Σ[（f0-fe）^2/fe]----卡方检验的基本公式，卡方检验的统计原理是比较观察值与理论值的差别，这个公式由皮尔逊推导的配合适度的理论公式而来，得到一个与卡方分布近似（渐进分布为卡方分布）的分布。

f0：

观察次数

fe：

期望次数

C：

类目的个数

Χ2：

统计量

卡方分布的性质：

1.是一系列平方和相加，没有负值

2.当H0为真时，Chisquare的数值会小

3.典型的卡方分布是正偏态，右侧的尾端构成临界区域

4.卡方分布的形状并不取决于样本数目，而是取决于类目数目，df=C-1

5.当卡方df增加时，卡方的临界值增加

6.当卡方df增加时，卡方分布的偏态越来越不严重

单位格χ2：

单位格χ2具有可加性，单位格χ2大于2.5，说明该因素对整个统计检验的显著贡献较大。

应用：

检验单因素分布的无差假说；检验假设分布的概率（如正态分布），即进行拟合优度检验（检验样本分布是否符合某种理论次数分布）

3、卡方独立性检验

检验行和列的两个变量彼此有无关联，是命名型变量,顺序型变量相关的计算方法（次数分布，检验的目的与两因素ANOVA相似）。

χ2=Σ[（f0-fe）2/fe]

fe=（rowtotal）（columntotal）/n----理论次数根据观测数据推算，两因素或两样本各行或各列数目的和，提供了每一项分类数目与总数的比值（A因素某水平数目总和*B因素个水平比率=单元格的期望次数）

df=（R-1）（C-1）-----计算fe使用了C+R-1个统计量（C个列和、R个行和，但这两个和的总和均为n，故减一）

f0：

观察次数

fe：

期望次数

R：

行类目的个数C：

列类目的个数

χ2：

统计量

计算过程：

虚无假设为两变量独立，计算期望次数fe，计算每个单位格的χ2，根据df做统计推断。

有时变量虽为等距型，但若不符合Pearson相关的统计前提，也可用卡方独立性检验。

4、卡方检验的前提和限制

分类相互排斥，互不包容；观测值相互独立（最好每个被试只有一个观测值）；每个单元格的期望次数应大于5。

5、卡方检验的效应大小和效力

Phi系数，范围0至1，是一种多元相关系数

在2×2列联表时，

在多于2×2列联表时，

Phi系数:

Cohensconvension

当dfsmall=1时，Φ=0.10表示小的效应，Φ=0.30表示中等的效应，Φ=0.50表

示高的效应。

当dfsmall=2时，Φ=0.07表示小的效应，Φ=0.21表示中等的效应，Φ=0.35表

示高的效应。

当dfsmall=3时，Φ=0.06表示小的效应，Φ=0.17表示中等的效应，Φ=0.29表

示高的效应。

第十五章非参数检验

参数检验与非参数检验：

总体分布类型已知，只有有限个参数未知的问题称为参数统计问题，参数统计中的未知总体虽然有无穷多种可能的分布，但所有可能的分布可以由有限个未知参数的变化来描述。

总体分布类型未知的问题称为非参数统计问题;非参数统计问题中未知总体的所有可能的分布不能够通过有限个未知参数的变化来描述。

参数检验的要求：

以明确的总体分布为前提，需要满足某些总体参数的假定条件；

非参数检验的要求：

不依赖于特定的总体分布，无须对总体参数规定条件，只需观察独立，连续分布。

顺序型量度的数据的特点：

对评定者的要求较低，不复杂，数据易理解且有吸引力，较易得到。

对于不易精确定义和绝对测量的因素，通过比较判断获得顺序型量度。

原始分数也有可能违反了特定统计程序的某些假定，比如t检验和方差分析假定数据来自正态分布，如果原始分数违反了正态假定，安全的方法是将原始的等距/等比分数转换成顺序型（等级）量度。

实验偶尔会产生不确定分数，比如大鼠可能在规定的时间中走不出迷宫。

曼-惠特尼U检验：

用于两个独立样本的检验。

顺序型数据：

如果两个样本的差异是反映真实的总体差异，将两个样本合并后，所有的分数排序为一条线，然后来自一个样本的分数应当集中于线的一端，而来自另一个样本的分

数应当集中于线的另一端。

如果两个样本没有差异，那么两个样本合并后大分数和小分数应当均匀地混合在一起，因为没有理由假定一组分数会大于另一组。

计算曼-惠特尼U检验的步骤：

1.对每种处理条件各得到一个独立的样本，以nA表示样本A中的被试数目，以nB表示样本B中的被试数目；

2.将两个样本合并，将所有被试nA+nB排序；

3.确定来自两个样本的分数在混合排序中是否系统性地聚集在度量的两端？

两样本点数相加，得到U

UA+UB=nA*nB

公式：

UA=nAnB+[nA（nA+1）/2]-ΣRA

UB=nAnB+[nB（nB+1）/2]-ΣRB---------适用于两样本有秩次一样的项目的情况

选择较小的U

UA+UB=nA*nB

用曼-惠特尼U作假设检验：

曼-惠特尼检验的虚无假设：

两处理之间无系统差异。

如果Mann-WhitneyU=0，其中一个样本不得分，，两个样本无重叠，有最大的差异。

当两个样本越接近时，Mann-WhitneyU越大。

所以，如果Uobs<=Ucrit（由nA，nB查表得）,才能拒绝H0（与参数检验正好相反）

当n>20,Mann-WhitneyU统计量接近正态分布，μ=nAnB/2，σ=sqrt（nAnB（nA+nB+1）/12）。

曼-惠特尼U检验的统计前提：

不要求正态分布，不要求方差同质，要求观察独立，要求变量是连续的，即较少相同的等级。

符号检验法

点数整个样本（n）中正的差异的数目，然后用p=q=1/2的二项检验。

维尔克松T检验

检验重复测量设计的两种处理条件之间的差别，对差异分数样本的绝对值进行排序。

虚无假设认为两处理间没有显著差异，如果虚无假设正确，样本数据之间的差异都是由机会造成。

所以正的和负的差异应当均匀地混合在一起。

相反，如果两处理间有系统差异，会造成持续出现正的差异或持续出现负的差异。

维尔克松T检验的步骤：

将差异分数排序，忽略正负号（+或-），然后分别计算正的差异分数的秩次和以及负的差异分数的秩次和。

WilcoxonT就是较小的那个和。

如果Tobs

相同的等级和0分数：

在Wilcoxon检验中，有两类相同的等级：

一个被试在处理1和处理2中所得的分数相同，得到的差异分数为0；

两个或以上的被试得到相同的差异分数（无论正负号）。

一些统计学家主张去掉那些差异分数为0的被试，将样本容量相应减少；

另一种程序是将0差异分数均匀地分配在正负两组中，但这种作法增大T值，使H0更难被拒绝。

一般采取第一种方法。

克-瓦式单向方差分析：

H=12/（N（N+1））ΣR2/n-3（N+1）

n为每一组样本数，N为样本总量，R为每一组数据的等级和，df=k-1。

展开阅读全文