行为科学统计第七版考研复习Word格式.docx

上传人:b****8 文档编号:21908672 上传时间:2023-02-01 格式:DOCX 页数:24 大小:25.92KB
下载 相关 举报
行为科学统计第七版考研复习Word格式.docx_第1页
第1页 / 共24页
行为科学统计第七版考研复习Word格式.docx_第2页
第2页 / 共24页
行为科学统计第七版考研复习Word格式.docx_第3页
第3页 / 共24页
行为科学统计第七版考研复习Word格式.docx_第4页
第4页 / 共24页
行为科学统计第七版考研复习Word格式.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

行为科学统计第七版考研复习Word格式.docx

《行为科学统计第七版考研复习Word格式.docx》由会员分享,可在线阅读,更多相关《行为科学统计第七版考研复习Word格式.docx(24页珍藏版)》请在冰豆网上搜索。

行为科学统计第七版考研复习Word格式.docx

取样误差存在于样本统计量和总体参数间的差异或误差的数量。

——每个样本都包含具有不同性质的不同个体。

由于样本由不同人组成,样本统计量也从一个样本变化到另一个。

并且没有一个样本统计量和总体参数完全一致。

取样误差的基本理念:

样本统计量通常与其相应的总体参数不同,并且根据样本的不同而变化。

数据结构、研究方法与统计

变量是一种针对不同个体具有不同值的特性或条件。

常量是一种不会变化,且对每个个体都相同的特性或条件。

相关法观察两个变量并确定它们之间是否存在关系。

(2X2表格数据中,对于每个个体,研究者都有两个测量,且所有的测量都是个数。

这种表示个数的数据的变量之间的关系,可以用卡方检验。

☆对两组或多组测量来说,会存在其中一个变量被用来定义组别。

(例如早餐成绩问题,变量1吃不吃早餐被用来定义组,变量2学习成绩被用来得到每个组的数据)

★并且,如果测量过程产生数字值,那么统计评估会包括计算每组的平均数,并比较它们。

<

如果测量过程仅仅将个体归入非数字的类别中,那么统计评估常包括计算每个组的比例。

(例如,产生数字值的儿童早餐与成绩问题,学习成绩被用来计算平均值。

而城乡居民的政策接受研究中,数字值被用来计算比例。

实验法操纵一个变量并观察或测量另一个变量。

并且为了建立两个变量间的因果关系,实验需要控制所有其他变量,使它们不会影响结论。

★实验法的两个特性:

1操纵:

研究者操纵一个变量,将它的值从一个水平变化到另一水平。

然后观察或测量第二个变量,来确定这种操纵是否导致了变化的产生。

2控制:

研究者必须控制研究情况,使其他无用的变量不能影响需要研究的变量关系。

★通常研究者需要考虑的两种变量:

1被试变量

一些特性会随个体的不同而变化,如年龄性别和智力。

只要实验是比较两组个体的差异,就必须保证两组的被试变量完全相同。

2环境变量

★通常使用三种技术控制其他变量:

1随机分派

目的是,使每个被试有相同的机会被分派到每个处理条件中,

以使被试的特性在两组中均匀分布。

2匹配

通过匹配来保证参与组或环境的同质性。

(如测量所有被试IQ后,将被试匹配地分派到两组中,使两组有基本相等的IQ)

3将变量控制成常量

例如,只使用10岁儿童做被试。

☆实验法的术语

自变量被研究者操纵的变量。

(在行为研究中,自变量通常由被试参与的两个或多个处理条件组成。

)自变量由在观察因变量之前就操纵好的前条件组成。

因变量即被观察的变量,用于评估处理效应。

(或:

被观察并用来评估可能存在操纵效应的变量)在心理学研究中,因变量通常是经过测量后从每个被试中得到的数据。

★注意,在实验法,事实上只测量了一个变量。

(因为是操纵一个观察另一个)

它和相关法有本质区别——后者两个变量均被测量,数据由每个个体的两个不同分数组成。

☆控制条件与实验条件

通常,实验将没有接受任何处理的被试的分数,与接受处理的被试分数进行比较。

这是通过证明处理条件造成的分数与不处理造成的分数的不同,而说明存在处理效应。

这种研究中,出现了:

1控制条件

指个体不接受实验处理。

——或者不接受处理,或者接受中性或安慰剂性处理。

控制条件的目的是提供与实验条件相比较的基准。

2实验条件

指个体接受实验处理。

★注意:

自变量通常由至少两个值组成。

(因为至少应有两个值才能称为变量)

有的实验,自变量是简单的数值。

#

由实验组和控制组组成的实验,自变量应该是处理与非处理。

☆非实验和准实验法

准自变量是指在非实验中那些决定了组别的变量。

——在非实验中仅仅对两个组进行比较,但这两组却不是通过操纵自变量所得到——通常是由被试变量或时间变量(如处理前与处理后)决定。

p17的两个例子,均是无法操纵变量1(可视为准自变量,准在它为改变因变量而生,却无法被操纵),这种变量1叫做准自变量。

——分割线开始——

-

★★★对于例子2的“研究者无法操纵时间”,这里有两个问题:

1为什么它这样说,“无法操纵时间,但是用它来划分两组数据”

这里面其实强调了两个因果关系,即:

a)如果这是一个实验,那么自变量一定为研究者所操纵。

b)如果一个变量是一个实验里的自变量,那么“分组”这个过程一定是由操纵自变量造成的。

(因为自变量通常由被试参与的处理条件组成,而处理条件决定了分组。

所以才有这种暗含因果关系的用词——“但是用它”。

2为什么这是个非实验

因为这个实验的分组是源于时间变量——治疗前治疗后是两个时间点,而它并没有得到研究者的操纵。

>

如果是对时间操纵后才导致这种分组,才能说时间是实验的自变量,而这个实验才能是实验。

★★★注:

切莫纠结于,为什么说它没有操纵时间这种思维是在假定了时间是此实验的自变量导致的,而时间仅仅是导致分组的原因,只能称为准自变量。

——分割线结束——

变量与测量

☆有些变量仅仅是假设出来的概念(即构念)从而无法直接观察,对它们的研究需要测量。

构念是内部属性或特性,它不能被直接观察到,但可以描述并解释行为。

操作定义是一个测量过程。

它测量了外部行为,并使用测量结果作为定义和对假设的构念的测量。

——操作定义有两个部分1描述了一系列测量构念的操作;

2用测量结果定义了构念。

☆根据变量值的类型,分为两种变量:

1离散变量

由不同的、不可分割的类别组成。

在两个相邻类别之间不存在其他值。

它们通常限于整数。

2连续变量

在任意两个观察到的值之间都存在无限多个可能的值。

一个连续变量可以被分割成无限个小数部分。

;

——连续变量的两个因素

1)两个不同个体很少会得到完全一样的测量。

若有,可以合理怀疑测量过程过于粗糙,或变量可能不是真的连续的。

2)测量连续变量时,每个测量类别实际上都是一个区间,需要用边界来定义。

一个数值其实是一个区间,而非量表上一个点。

☆在量表上对其设定边界,有以下概念:

实限指一条连续数据线上数值组成的区间的界限。

将两个相邻数值分开的实限恰好位于两个数值的中点。

——每个数值都有两个实限:

上实限和下实限。

☆收集数据需要测量观察。

而测量包括将事物分类(定性测量)和使用数字描述事物大小(定量测量)。

介绍四种测量量表:

1称名量表

由一系列具有不同名称的类别组成。

称名量表的测量将观察的对象分类并贴标签,但不对观察做任何定量的区分。

(称名量表的类别不是量化值,但它可以用数字代表,并依然不能代表任何量化差异。

如房间100和房间109这条信息无法得出任何量化结论。

2顺序量表

由一组按顺序排列的类别组成。

顺序量表的测量将观察对象按大小排序。

例如,类别可以是大中小,但不能是1cm2cm3cm。

——类别组成了序列这个事实意味着在类别间存在方向性。

可以用顺序量表的测量,来确定两个个体是否不同并确定差异的方向,但无法确定两个个体间的差异大小。

☆等距量表和等比量表

它们都由一系列排序的类别组成,并且这些类别组成了一系列相同大小的区间。

]

——大小相同的区间,代表可以利用此量表来确定两个测量间的差异的大小和方向。

它们的区别在于零点的性质。

3等距量表

由排序的类别组成,这些类别都是完全相同大小的区间。

——等距量表具有随意的零点,并且零值不代表被测量的变量不存在。

在等距量表中,量表数字间的差异等价于量的差异,但大小的比例没有意义。

4等比量表

是一种等距量表。

它有一个绝对零值,代表没有测量的变量。

——等比量表绝对的、非任意的零点,使我们可以测量变量的绝对值。

等比量表中数字的比例可以反映量上的比例。

★关于判断是等距还是等比(自推):

1等距量表的零点没有意义,等比量表的零点则代表了一个“没有测量”的变量(我把测量视为名词,大约代表“值”)。

所以等距的零点才能随便换,且只为衡量测量值的差值。

——SAT就是一个等距量表,因为零值是为衡量测量值之差而存在。

——每个人的感冒次数则是等比量表,因为零值有意义且不能变动。

因此:

2等距量表的重点在于测量之间的差值,等比量表则是比例。

例如SAT测试就是等距量表,重点在于测量间的差值而非比例。

~

(并不排除等比量表中测量间差值的意义,但由于等比本也是等距,因此舍弃比例并无意义。

统计符号

分数指研究中对因变量的观察后得到的每个被试的值。

——原始分数指研究中最初得到的、没有改变过的一组数据。

特定变量的值用X表示。

(★注意:

X又叫一个量表,可视为是一类数据之意。

在p48图上三行有明确的表达)

第二章频数分布

概述

☆原始数据通常不会显示任何明显的模式。

研究者依靠描述性统计来总结和组织他们的结果,使得当真的存在某些模式时,它们更易被发现。

描述性统计的任务:

简化结构并整理组织数据。

☆最常用过程是将数据放入一个频数分布。

频数分布是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。

★频数分布显示了个体得分在测量量表上的分布情况

——频数分布可以是表或图,但均有如下两个相同因素:

1组成最初测量量表的类别

2频数的记录(每个类别中的个体数目)

频数分布表

频数分布表的特点:

1表中的第一列,列出了所有可能的值,即使此类别的频数为0。

★对于顺序、等距、等比量表,类别被按从高到低的顺序排列。

对于称名量表,类别可以按任意顺序排列。

2第二列记录每个数值的频数。

3第一列的值(如X)指的是测量量表,并非真实数据。

比如X=5但此类别的个体并不存在。

4频数可以用于求出分布中的数据个数。

将频数相加可以得到个体个数的总和。

$

☆除了频数分布的两个基本列之外,还有其他描述数据分布的测量。

最常用的是比例和百分率。

比例用p表示。

p=f/N。

百分率%=p(100)=f/N(100)

由于比例p描述了频数(f)和数据数目(N)的关系,故比例又可称为相对频数。

——比例通常表示为小数。

☆当一个数据组涵盖范围过大时,为了不必列出所有数据,可以使用如下办法:

分组频数分布表将数据分成区间组,然后将区间列在表中,用区间代替每个数据。

★这里的组(即区间),叫组距。

它有四个规则:

1)应该具有大约10个组距。

只是大约。

2)每个区间的宽度应为相对简单的数字。

特别的,5和10可以简化计算。

3)每个组距的最小数值应为宽度的倍数。

如以10为区间宽度,则这些区间应从20,30等开始。

4)所有区间应有相同宽度。

它们应当无间断无重复涵盖所有数值,使任意特定数值恰好只属于一个区间。

——在分组频率分布表中,频数是对组距的描述,即这个组距的频数为f=xxx。

并且,当分数被放入一个分组表后,会失去关于特定分数值的信息。

通常组距越宽失去的信息越多。

☆当测量一个连续变量时,得到的测量对应的是线上的区间,而不是单个的点。

例如一个连续变量的X=8的频数f=3,其实是代表有3个数在~之间。

同样的,频数分布表中也存在实限概念。

表面界限比如40~49的组距中,40和49为区间的表面界限。

——但是这个区间的实限则是40的下实限和49的上实限,

即:

这个组距的实限是和。

并且组距的两实限间的距离,就是区间的宽度。

每两个组距会在实限处交汇,因此量表中没有中断。

★注意,回答“该组距的值域”时,需要回答出表面界限和实限。

★★分布表中最后一个区间是最小的区间。

因为“在顺序、等距、等比量表中,类别被按顺序排列通常是由高到低”。

频数分布图

☆对于用称名量表或顺序量表测量的数据,用柱形图。

☆对于用等距或等比量表测量的数据,有两种图。

1直方图

首先将数字(测量类别)沿X轴列出,然后画出位于每个X值上的一个矩形,使得:

a.矩形的高度对应每个类别的频数

b.矩形的宽度为每个类别的实限。

另外,修正的直方图中,频数用方块代替,故不再需要显示频数的Y轴。

★总结(自推):

注意p39图的组距画法。

第一个矩形宽架设在至之间,★把刻度标在中点上。

即恰好代表了组距1。

对于图,75~78组和81~84组之间没有空隙,是为了看齐分组频数分布表的“无缝”。

它说明78~81组之间没有数据——这是组距的宽度决定的现象。

2折线图

首先将数字(测量类别)沿着X轴列出,然后

1)每个坐标的中心上方有一个点,它的垂直位置对应这一类别的频数。

2)点和点之间的连续线段将这一系列点连在一起

3)最后,在分数全距(看坐标系内,别看轴)的两端各画一条直线与X轴相交(其实是零点和X最大值那点,看图)

对于一个分组分布,可以将每个点直接画在组距的中点处(中点为区间两实限的平均值)。

☆对于总体分布的频数分布图

由于其个体数过大,这种图有两个特点:

1相对频数

在图中(可视为柱形图)只有分组(X轴)和相对频数(Y轴),没有显示绝对数目。

2平滑曲线

\

当一个总体由等比量表的数字分数构成时,常用平滑曲线代替直方图或折线图的阶梯或锯齿状。

平滑曲线并非是将一系列点(真实频数)连在一起,而是展示从一个分数到另一个分数的相对变化。

频数分布的形状

☆完整描述任意分布,★有三种特性:

形状、集中趋势和变异性

集中趋势指分布中心的位置

变异性指数据是分散在广大区域还是集中在一起

★形状理论上分布的形状被定义为一个方程。

而大部分分布的形状是:

1对称分布

可以通过中心画一条垂直线使分布的一侧为另一侧的镜像

2偏态分布

分数倾向于堆积在量表的一端并向另一端逐渐变细

另:

尾指分数逐渐向分布一段变细的部位

!

a)正偏态分布:

尾在右侧的偏态分布(即尾指向X轴正方向)

b)负偏态分布:

尾在左侧的偏态分布(即尾指向X轴负方向)

百分位数、百分等级和内插法

☆频数分布除了描述整组数据,也可以用来描述整组数据中的个体位置。

原始分数个体分数或X值。

——原始分数本身不能提供个体位置。

其中一个变化是将原始分数转化为百分位数。

可见,百分位数就是原始分数的一个变化。

1一个特定分数的等级(百分等级)

指在分布中低于或等于该特定分数的个体的百分率。

——等级一定是一个百分率。

——例如,全班有60%的人分数在43以下,那么分数X=43具有百分等级60%。

2百分位数

当一个分数被它的百分等级确定后,这个分数就叫百分位数。

——它依然是一个原始分数。

如上例,X=43可以被称为第60个百分位数。

"

☆在频数分布表中,为了确定百分位数或百分等级:

累积频数(cf)计算量表中位于或低于每个类别的个体数目。

——因为它们表示了沿着量表向上时积累的个体个数。

(累积频数显示了处于或低于每个分数的个体个数。

累积百分率(c%)将累积频数转化成百分率

——因为它们显示了沿着量表向上时的累积的个体百分率。

★注意,频数分布表中的X值仍是区间,并非一个个点。

所以,当X=2的cf=2,c%=10%时,指的是:

在达到区间X=2的上限前积累了2个,且占10%。

内插法

具体步骤略

内插法的基本假定是,一个区间从一端到另一端的变化是正常的线性变化。

茎叶图

第三章集中趋势

★集中趋势是一个统计测量,它确定了能够代表分布中心的一个数值。

——集中趋势的目的找到最典型或最能代表整个组的单个数值

(即确认每一个分布的“中心”或“最具代表性的数值”。

(集中趋势描述了一个大型总体的典型特征,使得大量数据更容易被理解。

三种测量集中趋势的方法:

1平均数

也叫算数平均数,是将分布中的所有数据相加并'

除以数据的个数得到的。

一个总体的平均数用μ表示,一个样本的平均数用M表示。

(通常,使用希腊字母代表总体的特性,用英文字母代表一个样本的特性。

☆我们经常需要将两组数据组合,并找出合并组的整体平均数。

整体平均数并非原先两个样本的平均数中心。

由于两个样本大小不同,其中一个对整体组做出了更大贡献。

因此,决定整体平均数时占了更大权数。

因此,整体平均数也叫加权平均数。

加权平均数等于数据总和/数据个数。

2中数

中数是恰好将一个分布一分为二的数值。

——这个值也相当于第50个百分位数

(中数不存在特殊符号和记号,对于样本和总体来说,中数的定义和计算相同。

(在图形中,中数恰好将图形的面积分成两部分。

3众数

众数是具有最大频率的分数或类别

——众数可以用于确认任何测量量表的典型值或平均值,包括称名量表。

——众数是一个分数或一个类别。

但绝不是频数。

——一个分布只有一个平均数,一个中数。

但它可能有一个众数、多个众数,或没有众数。

具有两个众数的分布被称为双峰分布,具有多于两个众数的分布为多峰分布。

有时,具有数个等高点的分布叫无众数。

(通常双峰分布说明在同一个总体或样本里,存在两个不同的、有区别的个体组。

——通常,众数是具有绝对最高频数的数值。

但有时也表示具有相对高频数的值。

此时这个分布有两个不同的峰值,每一个值都是这个分布的众数。

☆较高的叫主要众数,较矮的叫次要众数。

☆选择一种最适合的集中趋势测量

优点:

用到了分布中的每个数值,通常具有很好的代表性。

与最常见的变异性测量有紧密联系(如平均数和方差等)

缺点:

极易受极端值影响而位移,而不能较好代表整个分布。

1)极端数值和偏态分布

中枢不易受极端值影响。

——即使极端值再变大,中数也不会因此改变。

2)未确定数值

比如有一个被试从未完成实验,只好1小时后停止实验,其时间则无法确定。

对于未确定数值

第一,不能不要这个数值。

因为使用样本的目的是把握总体,这个数据告诉我们有一部分总体不能解决问题。

第二,不能记录为60分钟。

要记录的是完成所需时间,个体从未完成任务,则无法记录。

——综上所述,存在未确定数值则无法计算平均值。

我们选择中数。

3)尾端开放式分布

指一个分布的类别没有上限和下限。

例如孩子的个数量表中,存在类别“5或更多”。

这样就无法计算ΣX,更无法计算平均数。

4)顺序量表

由于平均数是根据距离来定义集中趋势,而中数是用方向定义的——一半分数大于中数,一半小于中数——

/

因此不能用平均数,而用中数来报告顺序量表的平均数。

1)称名量表

因为称名量表不能测量数量,因此不能计算平均值和中数。

2)离散变量

3)描述形状

在一个频数分布图中,众数表示了高峰的位置。

☆集中趋势和分布形状

一个对称的单峰分布:

平均数、中数、众数重合于中点。

一个对称的双峰分布:

平均数和中数处于中点,众数位于两侧。

正偏态分布:

从左到右为众数,中数,平均数

负偏态分布:

从左到右为平均数,中数,众数

{

第四章变异性

变异性:

提供了对一个分布中的数据分散程度或聚集程度的数量测量。

测量变异性的目的:

获得分数在分布中的离散型的客观测量

一个好的变异性的目的:

'

1描述了分布。

(表示了数据是否聚集在一起或分布在较大区域内。

通常变异性是根据距离定义的。

2测量了单个或一组数据能否很好地代表整个分布。

3提供了在使用一个样本代表总体时预期误差值的信息

全距和四分位距

全距Xmax的上实限(URL)和Xmin的下实限(LRL)的差值。

四分位距被分布的中间50%所覆盖的距离。

等于Q3-Q1。

|

——其中Q1Q3为第一四分位数和第三四分位数,指分布最低的25%和分布最高的25%与其余值分隔开的界限(是一个界限)。

——一般会把它转换为半四分位距,它测量了从分布中心到50%的分布边界的距离。

由于它始于分布中央的50%,因此不易受极端值影响。

☆但它不能考虑单个数据间的真实距离,不能给出数据如何分散或聚集的全景。

总体的标准差和方差

标准差离差的平方和除以总体大小(或样本的自由度)的算数平方根。

★标准差的目的:

对分数到平均数的标准距离的测量。

☆标准差推导过程里的中间量

1)离差

是每个数与平均数之间的距离。

并且有正负。

★数据的离差总和为零。

——这也是标准差计算需要将离差平方的原因

——引入离差的平方,使得对变异性的测量基于距离的平方之上。

结果:

给每个数据增减一个常量,标准差不变。

给每个数据增减一个倍数,标准差依同样倍数增减。

2)方差

是离差平方和除以总体大小(或样本自由度)的商。

☆对标准差的解析

1)估计

对于一个分布,标准差的范围在(a,b)区间。

其中a,b分别为距平均数最近和最远的数据与平均数的距离。

大约在(a+b)/2处。

2)图示

标准差线大约为从平均数到最极端值的一半

3)计算公式

标准差和方差在概念上,对于总体和样本完全相同。

★对于总体:

(符号有SS平方和,μ平均数,N总体大小,σ标准差和σ2方差)

定义公式SS=∑.(X-μ)(X-μ)

计算公式SS=∑(X方)-(∑X)方/N

方差和标准差略。

★对于样本:

(符号有SS平方和,M平均数,n总体大小,s标准差和s2方差)

SS与总体相同,方差和标准差是除以n-1。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1