行为科学统计第七版考研复习Word格式.docx-资源下载

行为科学统计第七版考研复习Word格式.docx

1、取样误差存在于样本统计量和总体参数间的差异或误差的数量。每个样本都包含具有不同性质的不同个体。由于样本由不同人组成，样本统计量也从一个样本变化到另一个。并且没有一个样本统计量和总体参数完全一致。取样误差的基本理念：样本统计量通常与其相应的总体参数不同，并且根据样本的不同而变化。数据结构、研究方法与统计变量是一种针对不同个体具有不同值的特性或条件。常量是一种不会变化，且对每个个体都相同的特性或条件。相关法观察两个变量并确定它们之间是否存在关系。（2X2表格数据中，对于每个个体，研究者都有两个测量，且所有的测量都是个数。这种表示个数的数据的变量之间的关系，可以用卡方检验。

2、对两组或多组测量来说，会存在其中一个变量被用来定义组别。（例如早餐成绩问题，变量1吃不吃早餐被用来定义组，变量2学习成绩被用来得到每个组的数据）并且，如果测量过程产生数字值，那么统计评估会包括计算每组的平均数，并比较它们。如果是对时间操纵后才导致这种分组，才能说时间是实验的自变量，而这个实验才能是实验。注：切莫纠结于，为什么说它没有操纵时间这种思维是在假定了时间是此实验的自变量导致的，而时间仅仅是导致分组的原因，只能称为准自变量。分割线结束变量与测量有些变量仅仅是假设出来的概念（即构念）从而无法直接观察，对它们的研究需要测量。构念是内部属性或特性，它不能被直接观察到，但可以描述并解释行为。

3、操作定义是一个测量过程。它测量了外部行为，并使用测量结果作为定义和对假设的构念的测量。操作定义有两个部分1 描述了一系列测量构念的操作；2 用测量结果定义了构念。根据变量值的类型，分为两种变量：1 离散变量由不同的、不可分割的类别组成。在两个相邻类别之间不存在其他值。它们通常限于整数。2 连续变量在任意两个观察到的值之间都存在无限多个可能的值。一个连续变量可以被分割成无限个小数部分。;连续变量的两个因素1）两个不同个体很少会得到完全一样的测量。若有，可以合理怀疑测量过程过于粗糙，或变量可能不是真的连续的。2）测量连续变量时，每个测量类别实际上都是一个区间，需要用边界来定义。一个数值其实是

4、一个区间，而非量表上一个点。在量表上对其设定边界，有以下概念：实限指一条连续数据线上数值组成的区间的界限。将两个相邻数值分开的实限恰好位于两个数值的中点。每个数值都有两个实限：上实限和下实限。收集数据需要测量观察。而测量包括将事物分类（定性测量）和使用数字描述事物大小（定量测量）。介绍四种测量量表：1 称名量表由一系列具有不同名称的类别组成。称名量表的测量将观察的对象分类并贴标签，但不对观察做任何定量的区分。（称名量表的类别不是量化值，但它可以用数字代表，并依然不能代表任何量化差异。如房间100和房间109这条信息无法得出任何量化结论。2 顺序量表由一组按顺序排列的类别组成。顺序量表

5、的测量将观察对象按大小排序。例如，类别可以是大中小，但不能是1cm2cm3cm。类别组成了序列这个事实意味着在类别间存在方向性。可以用顺序量表的测量，来确定两个个体是否不同并确定差异的方向，但无法确定两个个体间的差异大小。等距量表和等比量表它们都由一系列排序的类别组成，并且这些类别组成了一系列相同大小的区间。大小相同的区间，代表可以利用此量表来确定两个测量间的差异的大小和方向。它们的区别在于零点的性质。3 等距量表由排序的类别组成，这些类别都是完全相同大小的区间。等距量表具有随意的零点，并且零值不代表被测量的变量不存在。在等距量表中，量表数字间的差异等价于量的差异，但大小的比例没有意义。4 等

6、比量表是一种等距量表。它有一个绝对零值，代表没有测量的变量。等比量表绝对的、非任意的零点，使我们可以测量变量的绝对值。等比量表中数字的比例可以反映量上的比例。关于判断是等距还是等比（自推）：1 等距量表的零点没有意义，等比量表的零点则代表了一个“没有测量”的变量（我把测量视为名词，大约代表“值”）。所以等距的零点才能随便换，且只为衡量测量值的差值。SAT就是一个等距量表，因为零值是为衡量测量值之差而存在。每个人的感冒次数则是等比量表，因为零值有意义且不能变动。因此：2 等距量表的重点在于测量之间的差值，等比量表则是比例。例如SAT测试就是等距量表，重点在于测量间的差值而非比例。（并不排除等比量

7、表中测量间差值的意义，但由于等比本也是等距，因此舍弃比例并无意义。统计符号分数指研究中对因变量的观察后得到的每个被试的值。原始分数指研究中最初得到的、没有改变过的一组数据。特定变量的值用X表示。（注意：X又叫一个量表，可视为是一类数据之意。在p48图上三行有明确的表达）第二章频数分布概述原始数据通常不会显示任何明显的模式。研究者依靠描述性统计来总结和组织他们的结果，使得当真的存在某些模式时，它们更易被发现。描述性统计的任务：简化结构并整理组织数据。最常用过程是将数据放入一个频数分布。频数分布是一种组织好的关于位于测量量表每个类别上的个体数目的数据表。频数分布显示了个体得分在测量量表上

8、的分布情况频数分布可以是表或图，但均有如下两个相同因素：1 组成最初测量量表的类别2 频数的记录（每个类别中的个体数目）频数分布表频数分布表的特点：1 表中的第一列，列出了所有可能的值，即使此类别的频数为0。对于顺序、等距、等比量表，类别被按从高到低的顺序排列。对于称名量表，类别可以按任意顺序排列。2 第二列记录每个数值的频数。3 第一列的值（如X）指的是测量量表，并非真实数据。比如X=5但此类别的个体并不存在。4 频数可以用于求出分布中的数据个数。将频数相加可以得到个体个数的总和。$除了频数分布的两个基本列之外，还有其他描述数据分布的测量。最常用的是比例和百分率。比例用p表示。p=f/

9、N。百分率 %=p（100）=f/N（100）由于比例p描述了频数（f）和数据数目（N）的关系，故比例又可称为相对频数。比例通常表示为小数。当一个数据组涵盖范围过大时，为了不必列出所有数据，可以使用如下办法：分组频数分布表将数据分成区间组，然后将区间列在表中，用区间代替每个数据。这里的组（即区间），叫组距。它有四个规则：1）应该具有大约10个组距。只是大约。2）每个区间的宽度应为相对简单的数字。特别的，5和10可以简化计算。3）每个组距的最小数值应为宽度的倍数。如以10为区间宽度，则这些区间应从20，30等开始。4）所有区间应有相同宽度。它们应当无间断无重复涵盖所有数值，使任意特定数值恰好

10、只属于一个区间。在分组频率分布表中，频数是对组距的描述，即这个组距的频数为f=xxx。并且，当分数被放入一个分组表后，会失去关于特定分数值的信息。通常组距越宽失去的信息越多。当测量一个连续变量时，得到的测量对应的是线上的区间，而不是单个的点。例如一个连续变量的X=8的频数f=3，其实是代表有3个数在之间。同样的，频数分布表中也存在实限概念。表面界限比如4049的组距中，40和49为区间的表面界限。但是这个区间的实限则是40的下实限和49的上实限，即：这个组距的实限是和。并且组距的两实限间的距离，就是区间的宽度。每两个组距会在实限处交汇，因此量表中没有中断。注意，回答“该组距的值域”时，需要回

11、答出表面界限和实限。分布表中最后一个区间是最小的区间。因为“在顺序、等距、等比量表中，类别被按顺序排列通常是由高到低”。频数分布图对于用称名量表或顺序量表测量的数据，用柱形图。；对于用等距或等比量表测量的数据，有两种图。1 直方图首先将数字（测量类别）沿X轴列出，然后画出位于每个X值上的一个矩形，使得：a. 矩形的高度对应每个类别的频数b. 矩形的宽度为每个类别的实限。另外，修正的直方图中，频数用方块代替，故不再需要显示频数的Y轴。总结（自推）：注意p39图的组距画法。第一个矩形宽架设在至之间，把刻度标在中点上。即恰好代表了组距1。对于图，7578组和8184组之间没有空隙，是为了看齐分组频数

12、分布表的“无缝”。它说明7881组之间没有数据这是组距的宽度决定的现象。2 折线图首先将数字（测量类别）沿着X轴列出，然后1）每个坐标的中心上方有一个点，它的垂直位置对应这一类别的频数。2）点和点之间的连续线段将这一系列点连在一起,3）最后，在分数全距（看坐标系内，别看轴）的两端各画一条直线与X轴相交（其实是零点和X最大值那点，看图）对于一个分组分布，可以将每个点直接画在组距的中点处（中点为区间两实限的平均值）。对于总体分布的频数分布图由于其个体数过大，这种图有两个特点：1 相对频数在图中（可视为柱形图）只有分组（X轴）和相对频数（Y轴），没有显示绝对数目。2 平滑曲线当一个总体由等比量表

13、的数字分数构成时，常用平滑曲线代替直方图或折线图的阶梯或锯齿状。平滑曲线并非是将一系列点（真实频数）连在一起，而是展示从一个分数到另一个分数的相对变化。频数分布的形状完整描述任意分布，有三种特性：形状、集中趋势和变异性集中趋势指分布中心的位置变异性指数据是分散在广大区域还是集中在一起形状理论上分布的形状被定义为一个方程。而大部分分布的形状是：1 对称分布可以通过中心画一条垂直线使分布的一侧为另一侧的镜像2 偏态分布分数倾向于堆积在量表的一端并向另一端逐渐变细另：尾指分数逐渐向分布一段变细的部位!a）正偏态分布：尾在右侧的偏态分布（即尾指向X轴正方向）b）负偏态分布：尾在左侧的偏态分布

14、（即尾指向X轴负方向）百分位数、百分等级和内插法频数分布除了描述整组数据，也可以用来描述整组数据中的个体位置。原始分数个体分数或X值。原始分数本身不能提供个体位置。其中一个变化是将原始分数转化为百分位数。￥可见，百分位数就是原始分数的一个变化。1 一个特定分数的等级（百分等级）指在分布中低于或等于该特定分数的个体的百分率。等级一定是一个百分率。例如，全班有60%的人分数在43以下，那么分数X=43具有百分等级60%。2 百分位数当一个分数被它的百分等级确定后，这个分数就叫百分位数。它依然是一个原始分数。如上例，X=43可以被称为第60个百分位数。在频数分布表中，为了确定百分位数或百分等级

15、：累积频数（cf）计算量表中位于或低于每个类别的个体数目。因为它们表示了沿着量表向上时积累的个体个数。（累积频数显示了处于或低于每个分数的个体个数。累积百分率（c%）将累积频数转化成百分率因为它们显示了沿着量表向上时的累积的个体百分率。注意，频数分布表中的X值仍是区间，并非一个个点。所以，当X=2的cf=2，c%=10%时，指的是：在达到区间X=2的上限前积累了2个，且占10%。内插法具体步骤略内插法的基本假定是，一个区间从一端到另一端的变化是正常的线性变化。茎叶图略第三章集中趋势，集中趋势是一个统计测量，它确定了能够代表分布中心的一个数值。集中趋势的目的找到最典型或最能代表整个

16、组的单个数值（即确认每一个分布的“中心”或“最具代表性的数值”。（集中趋势描述了一个大型总体的典型特征，使得大量数据更容易被理解。三种测量集中趋势的方法：1 平均数也叫算数平均数，是将分布中的所有数据相加并除以数据的个数得到的。一个总体的平均数用表示，一个样本的平均数用M表示。（通常，使用希腊字母代表总体的特性，用英文字母代表一个样本的特性。我们经常需要将两组数据组合，并找出合并组的整体平均数。整体平均数并非原先两个样本的平均数中心。由于两个样本大小不同，其中一个对整体组做出了更大贡献。因此，决定整体平均数时占了更大权数。因此，整体平均数也叫加权平均数。加权平均数等于数据总和/数据个数

17、。2 中数中数是恰好将一个分布一分为二的数值。这个值也相当于第50个百分位数（中数不存在特殊符号和记号，对于样本和总体来说，中数的定义和计算相同。（在图形中，中数恰好将图形的面积分成两部分。3 众数众数是具有最大频率的分数或类别众数可以用于确认任何测量量表的典型值或平均值，包括称名量表。众数是一个分数或一个类别。但绝不是频数。一个分布只有一个平均数，一个中数。但它可能有一个众数、多个众数，或没有众数。具有两个众数的分布被称为双峰分布，具有多于两个众数的分布为多峰分布。有时，具有数个等高点的分布叫无众数。（通常双峰分布说明在同一个总体或样本里，存在两个不同的、有区别的个体组。通常，众

18、数是具有绝对最高频数的数值。但有时也表示具有相对高频数的值。：此时这个分布有两个不同的峰值，每一个值都是这个分布的众数。较高的叫主要众数，较矮的叫次要众数。选择一种最适合的集中趋势测量优点：用到了分布中的每个数值，通常具有很好的代表性。与最常见的变异性测量有紧密联系（如平均数和方差等）缺点：极易受极端值影响而位移，而不能较好代表整个分布。（1）极端数值和偏态分布中枢不易受极端值影响。即使极端值再变大，中数也不会因此改变。2）未确定数值比如有一个被试从未完成实验，只好1小时后停止实验，其时间则无法确定。对于未确定数值第一，不能不要这个数值。因为使用样本的目的是把握总体，这个数据告诉我们有一

19、部分总体不能解决问题。第二，不能记录为60分钟。要记录的是完成所需时间，个体从未完成任务，则无法记录。综上所述，存在未确定数值则无法计算平均值。我们选择中数。3）尾端开放式分布指一个分布的类别没有上限和下限。例如孩子的个数量表中，存在类别“5或更多”。这样就无法计算X，更无法计算平均数。4）顺序量表由于平均数是根据距离来定义集中趋势，而中数是用方向定义的一半分数大于中数，一半小于中数/因此不能用平均数，而用中数来报告顺序量表的平均数。1）称名量表因为称名量表不能测量数量，因此不能计算平均值和中数。2）离散变量3）描述形状在一个频数分布图中，众数表示了高峰的位置。集中趋势和分布形状一个对

20、称的单峰分布：平均数、中数、众数重合于中点。一个对称的双峰分布：平均数和中数处于中点，众数位于两侧。正偏态分布：从左到右为众数，中数，平均数负偏态分布：从左到右为平均数，中数，众数第四章变异性变异性：提供了对一个分布中的数据分散程度或聚集程度的数量测量。测量变异性的目的：获得分数在分布中的离散型的客观测量一个好的变异性的目的：1 描述了分布。（表示了数据是否聚集在一起或分布在较大区域内。通常变异性是根据距离定义的。2 测量了单个或一组数据能否很好地代表整个分布。3 提供了在使用一个样本代表总体时预期误差值的信息全距和四分位距全距 Xmax的上实限（URL）和Xmin的下实

21、限（LRL）的差值。四分位距被分布的中间50%所覆盖的距离。等于Q3-Q1。|其中Q1Q3为第一四分位数和第三四分位数，指分布最低的25%和分布最高的25%与其余值分隔开的界限（是一个界限）。一般会把它转换为半四分位距，它测量了从分布中心到50%的分布边界的距离。由于它始于分布中央的50%，因此不易受极端值影响。但它不能考虑单个数据间的真实距离，不能给出数据如何分散或聚集的全景。总体的标准差和方差标准差离差的平方和除以总体大小（或样本的自由度）的算数平方根。标准差的目的：对分数到平均数的标准距离的测量。标准差推导过程里的中间量1）离差是每个数与平均数之间的距离。并且有正负。数据的离差总和为

22、零。这也是标准差计算需要将离差平方的原因引入离差的平方，使得对变异性的测量基于距离的平方之上。结果：给每个数据增减一个常量，标准差不变。给每个数据增减一个倍数，标准差依同样倍数增减。2）方差是离差平方和除以总体大小（或样本自由度）的商。对标准差的解析1）估计对于一个分布，标准差的范围在（a，b）区间。其中a，b分别为距平均数最近和最远的数据与平均数的距离。大约在（a+b）/2处。2）图示标准差线大约为从平均数到最极端值的一半3）计算公式标准差和方差在概念上，对于总体和样本完全相同。对于总体：（符号有SS平方和，平均数，N总体大小，标准差和2方差）定义公式 SS=. （X-）（X-）计算公式 SS=（X方）-（X）方/N方差和标准差略。对于样本：（符号有SS平方和，M平均数，n总体大小，s标准差和s2方差）SS与总体相同，方差和标准差是除以n-1。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？