描述统计与推断统计.docx

资源描述

描述统计与推断统计.docx

《描述统计与推断统计.docx》由会员分享，可在线阅读，更多相关《描述统计与推断统计.docx（19页珍藏版）》请在冰豆网上搜索。

描述统计与推断统计.docx

描述统计与推断统计

描述统计与推断统计-心理学统计与测量经典习题1

　　第一章描述统计

　　名词解释

　　1.描述统计（大学2002研）

　　答：

描述统计主要研究如何整理心理与教育科学实验或调查得来的大量数据，描述一组数据的全貌，表达一件事物的性质。

具体容有：

数据如何分组，如何使用各种统计表与统计图的方法去描述一组数据的分组及分布情况，如何通过一组数据计算一些特征数，减缩数据，进一步显示与描述一组数据的全貌。

　　2.相关系数（大学2002研）

　　答：

相关系数是两列变量间相关程度的数字表现形式，或者说是表示相关程度的指标。

作为样本的统计量用r表示，作为总体参数一般用ρ表示。

相关系数不是等距的度量值，因此在比较相关程度时，只能说绝对值大者比绝对值小者相关更密切一些，而不能进行加减乘除。

　　3.差异系数（浙大2003研）

　　答：

差异系数，又称变异系数、相对标准差等，它是一种相对差异量，为标准差对平均数的百分比。

其公式如下：

　　常用于：

①同一团体不同观测值离散程度的比较；②对于水平相差较大，但进行的是同一种观测的各种团体，进行观测值离散程度的比较。

　　4.二列相关（中科院2004研）

　　答：

如果两列变量均属于正态分布，其中一列变量为等距或等比的测量数据，另一列变量虽然也是正态分布，但被人为地划分为两类。

求这样两列变量的相关用二列相关。

　　5.集中量数与差异量数（浙大2000研，大学2002研）

　　答：

集中趋势和离中趋势是次数分布的两个基本特征。

数据的集中趋势就是指数据分布量数据向某方向集中的程度，离中趋势是指数据分布中数据彼此分散的程度。

用来描述一组数据这两种特点的统计量分别称为集中量数和差异量数。

　　6.中位数（南开大学2004研）

　　答：

中位数，又称中点数，中数，是指位于一组数据中较大一半和较小一半中间位置的那个数，用Md或Mdn来表示。

　　7.品质相关（华东师大2002研）

　　答：

品质相关是指R×C表的两个因素之间的关联程度。

两个因素只被划为了不同的品质类别，其数据一般都是计数的数据，而非测量的数据。

品质相关可依二因素的性质及分类项目的不同，而有不同的名称和计算方法，较常见的有四分相关和Ф相关。

　　8.标准分数（华南师大2004研）

　　答：

标准分数，又称基分数或Z分数，是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。

　　其计算公式为：

　　简答题

　　1.简述使用积差相关系数的条件。

（首师大2004研）

　　答：

一般来说，用于计算积差相关系数的数据资料，需要满足下面几个条件：

　　①要求成对的数据，即若干个体中每个个体都有两种不同的观测值。

　　②两列变量各自总体的分布都是正态，即正态双变量，至少两个变量服从的分布应是接近正态的单峰分布。

　　③两个相关的变量是连续变量，也即两列数据都是测量数据。

　　④两列变量之间的关系应是直线性的，如果是非直线性的双列变量，不能计算线性相关。

　　2.简述算术平均数的使用特点。

（浙大2003研，大学2002研）

　　答：

算术平均数的优点有反应灵敏；计算严密；计算简单；简明易解；适合于进一步用代数方法演算；较少受抽样变动的影响。

缺点有易受极端数据的影响；如果出现模糊不清的数据时，无法计算平均数，因为平均数的计算需要每个数据的加入。

勤*思老师期待您的好消息。

从算术平均数的这些特点可以看出，如果一组数据是比较准确，可靠又同质，而且需要每一个数据都加入计算，同时还要作进一步代数运算时，用算术平均数表示其集中趋势最佳。

　　3.如果你不知道两个变量概念之间的关系，只知道两个变量的相关系数很高，请问你可能做出什么样的解释？

（大学2004研）

　　答：

相关系数是两列变量间相关程度的数字表现形式，或者说是表示相关程度的指标。

两个变量的相关系数很高，只能说明两变量间具有较高的共变关系，即一个变量的变化会引起另一个变量朝相同或相反方向发生变化。

至于二者有无因果关系，或谁是因谁是果则无法确定。

所以在解释时只能说两变量间存在较高的相关关系。

　　4.一组大学生的智力水平和性别之间求相关，设男为1，女为2。

如果两变量的相关为负，请问说明了什么情况？

请举例说明。

（大学2004研）

　　答：

根据题意，如果两变量的相关为负，则说明大学生的智力水平与性别存在负相关，即男生智力水平低，女生智力水平高。

　　举例提示：

本题所求的相关是点二列相关，一列变量为等距变量（智力水平），另一列变量为名义变量（性别）。

根据点列相关的数据特点，列出两组数据，运用相应公式计算即可。

要注意的是，男生的智力水平平均分数应小于女生的。

　　5.某省进行了一次小学五年级的数学统考。

已知不同小学教学水平相差较大，但同一个小学的五年级的不同班级教学水平很相近。

以学生的考试成绩为原始数据，问：

　　①如何处理这些原始数据，使得数据处理的结果能够比较不同小学学生的数学学习潜能？

　　答：

提示：

使用标准分数。

由于要考察的是不同学生的数学学习潜能，而非已有的数学水平，所以应该以每个学校的五年级学生为总体，求每个学生的标准分数，然后比较不同学校学生间的标准分数。

　　②如何处理这些原始数据，使得数据处理的结果能够反映一个学校的教学水平？

（南开大学2004研）

　　答：

提示：

一个学校的教学水平主要体现在学生的学习成绩上，而学生成绩的好坏有两个标准：

一是平均水平的高低，二是整体水平的差异。

一般来说，平均水平越高，同时整体水平差异越小，表明该学校的教学水平高，反之则低。

而同时反映了这两个指标的只有差异系数（CV）。

其公式为：

　　6.举例说明相关程度很高的两个变量之间并不存在因果关系。

（北师大2001研）

　　答：

变量之间的因果关系必须符合以下几个条件：

①二者之间必须有可解释的相关关系；②二者必须有一定的时间先后顺序，也就是说“因”的变化在前，“果”的变化在后，二者顺序不能变；③二者不能是虚假关系（即一种关系被另一种关系被另一种关系取代后，原来的关系被证明不成立）；④因果决定的方向不能改变。

　　而变量之间的相关关系是一种共变关系，即一种变量发生变化，另一种变量也相应地朝相同或相反方向发生变化。

但有高相关的两个变量之间并不一定存在因果关系，如一般情况下，数学成绩好的学生，物理成绩也会比较好，即两者存在很高的正相关。

但是，数学成绩和物理成绩之间没有一定的时间先后顺序，而且无法确定二者谁决定了谁，即不能满足因果关系的②④两个条件，所以不是因果关系。

　　7.度量离中趋势的差异量数有哪些？

为什么要度量差异量数？

（西北师大2002研）

　　答：

对于数据变异性即离中趋势进行度量的一组统计量，称作差异量数。

这些差异量数有标准差或方差，全距，平均差，四分差及各种百分差等。

　　一组数据集中量数的代表性如何，可由表示差异情况的量数来说明。

差异量数越小，则集中量数的代表性越大；若差异量数越大，则集中量数的代表性越小。

如差异量数为零，则说明该组数据彼此相等，其值都与集中量数相同。

集中量数是指量尺上的一点，是点值，而差异量数是量尺上的一段距离，只有将二者很好地结合，才能对一组数据的全貌进行清晰的描述。

所以需要度量差异量数。

　　8.用算术平均数度量集中趋势存在哪些缺点？

试举例说明。

（重大2004研）

　　答：

其缺点有：

易受极端数据的影响；如果出现模糊不清的数据时，无法计算平均数，因为平均数的计算需要每个数据的加入。

　　如：

有两组物理成绩：

　　第一组：

25，37，32，60，100，99，96

　　第二组：

63，72，60，68，63，62，61

　　尽管两组成绩的平均分相等都约为64，但由于极端数据的存在，64不能很好地代表第一组数据的平均水平，却较好地代表了第二组数据。

　　计算题

　　1.五位教师对甲乙丙三篇作文分别排定名次如下表；

　　名次

　　教师序号甲乙丙

　　1 3 1 2

　　2 3 2 1

　　3 3 1 2

　　4 1 3 2

　　5 1 3 2

　　请对上述数据进行相应的统计分析。

（华东师大2003研）

　　答题提示：

题目目的是让考生对5位教师的一致性做出评价。

该题是让5个被试（教师）对3篇作文进行等级评定，每个被试都根据自己的标准对三篇作文排出了一个等级顺序。

所以应该计算肯德尔W系数。

将题中原始数据代入公式即可。

　　2.计算未分组数据：

18，18，20，21，19，25，24，27，22，25，26的平均数、中数和标准差。

（首师大2003研）

　　答题提示：

平均数与标准差的计算直接将原始数据代入相应公式即可。

中位数的计算稍复杂一些。

将数据从小到大进行排序，可知数组中虽有重复数据，但位于中间的数非重复数据，加之数据数为偶数，所以取第N/2和第N/2+1两个数的平均数作为中数即可。

　　3.4名教师各自评阅相同的5篇作文，表2为每位教师给每篇作文的等级，试计算肯德尔W系数。

（首师大2003研）

　　表2 教师对学生作文的评分

作文

评分者

一

二

三

四

五

　　答题提示：

将数据代入肯德尔W系数即可。

　　4.把下列分数转换成标准分数。

　　11.0，11.3，10.0，9.0，11.5，12.2，13.1，9.7，10.5（华南师大2003研）

　　答题提示：

先根据相应公式计算平均数和标准差，然后根据标准分数公式依次计算每个分数的标准分数。

　　5.假定学生的成绩呈正态分布，某班五名学生的数学和物理成绩如下，求相关系数。

（重大2004研）

学生

数学（X）

物理（Y）

　　答题提示：

两列数据均为测量数据，而且呈正态分布，因此应该求积差相关。

将数据代入积差相关公式即可。

　　第二章推断统计

　　单选题

　　1.什么情况下样本均值分布是正态分布？

　　A总体分布是正态分布

　　B样本容量在30以上

　　CA和B同时满足

　　DA或B之中任意一个条件满足

　　（大学2000）

　　参考答案D

　　2.以下关于假设检验的命题，哪一个是正确的？

　　A如果H0在=.05的单侧检验中被接受，那么H0在=.05的双侧检验中一定会被接受

　　B如果t的观测值大于t的临界值，一定可以拒绝H0

　　C如果H0在=.05的水平上被拒绝，那么H0在=.01的水平上一定会被拒绝

　　D在某一次实验中，如果实验者甲用=.05的标准，实验者乙用=.01的标准。

实验者甲犯II类错误的概率一定会大于实验者乙。

　　（大学2000）

　　参考答案D

　　3.让64位大学生品尝AB两种品牌的可乐并选择一种自己比较喜欢的。

如果这两种品牌的可乐味道实际没有任何区别，有39人或39人以上选择品牌B的概率是（不查表）：

　　A2.28% B4.01% C5.21% D39.06% （大学2000）

　　参考答案C

　　4.在多元回归的方法中，除哪种方法外，各预测源进入回归方程的次序是单纯由统计数据决定的：

　　A逐步回归 B层次回归 C向前法 D后退法

　　（大学2000）

　　参考答案B

　　5.以下关于假设检验的命题哪一个是正确的

　　A、实验者甲用=0.05的标准，实验者乙用=0.01的标准，甲犯II类错误的概率一定会大于乙：

　　B、统计效力总不会比水平小

　　C、扩大样本容量犯II类错误的概率增加

　　D、两个总体间差异小，正确拒绝虚无假设的机会增加。

　　（大学2002）

　　参考答案 D

　　6.已知X和Y的相关系数r1是0.38，在0.05的水平上显著，A与B的相关系数r2是0.18，在0.05的水平上不显著

　　A、r1与r2在0.05水平上差异显著

　　B、r1与r2在统计上肯定有显著差异

　　C、无法推知r1与r2在统计上差异是否显著

　　D、r1与r2在统计上不存在显著差异

　　（大学2002）

　　参考答案C

　　7.在回归方程中，假设其他因素保持不变，当X与Y相关趋近于0时，估计的标准误是怎样变化？

　　A、不变B、提高C、降低D、也趋近于0

　　（大学2002）

　　参考答案 C

　　简答题

　　1.非参数检验方法的特点有哪些？

（大学2005）

　　参考答案：

　　①一般不需要有严格的前提假设

　　②非参数检验特别适用于顺序资料（等级变量）

　　③很适用于小样本，且方法简单

　　④最大的不足是未能充分利用资料的全部信息；⑤非参数方法目前还不能处理“交互作用”。

　　2.在被试取样时，应该根据哪些因素确定样本的大小？

（华南师大2005）

　　参考答案

　　①当进行平均数的估计时，当确定后，总体标准差和最大允许误差d是决定样本容量的两个因子

　　②当进行平均数假设检验时，需要同时考虑显著性水平、统计检验力、总体标准差以及所假设的总体差异四个因子

　　3.能否用两总体平均数差异z检验或t检验逐对检验多个总体平均数的差异显著性问题？

为什么？

（华南师大2005）

　　参考答案：

　　不能，因为同时比较的平均数越多，其中差异较大的一对所得的t值超过原定临界值t的概率就越大，这时错误的概率将明显增大，或者说原本达不到显著性水平的差异很容易被视为是显著的。

　　4.试述分层抽样的原则和方法？

（华南师大2005）

　　参考答案：

　　分层抽样是按照总体上已有的某些特征，将总体分成几个不同部分，在分别在每一部分中随机抽样。

分层的总的原则是：

各层的变异要小，而层与层之间的变异越大越好。

在具体操作中，没有一成不变的标准，研究人员可根据研究需要依照多个分层标准，视具体情况而定。

　　5.有人说：

“t检验适用于样本容量小于30的情况。

Z检验适用于大样本检验”，谈谈你对此的看法

　　（师大学2004）

　　参考答案：

　　选择t检验还是Z检验的主要标准不是样本容量大小，而是欲检验的总体是否为正态分布以及总体方差是否已知。

如果总体为正态而方差又已知，使用Z检验就可以了；而如果总体为正态而总体方差未知，就需要用无偏估计量来代替总体方差，这时应进行t检验；如果总体并非正态而总体方差也是未知的，在样本容量大于30时，可以用Z检验但不能用t检验。

如果总体非正态而样本容量又小于30，既不能用Z检验也不能用t检验，需要使用非参数检验。

　　6.学业考试成绩为x，智力测验分数为y，已知这两者的rxy=0.5，IQ=100+15z，某学校根据学业考试成绩录取学生，录取率为15%，若一个智商为115的学生问你他被录取的可能性为多少，你如何回答他？

（师大学2004）

　　答案提示：

很难给出一个确定的比率来回答该生可被录取的可能性。

就智商而言，该生在总体中的z值为1，百分比为84.26%，但并不能以此来推断该生一定可被录取，因为智商与考试成绩之间的相关仅为0.5。

　　7.如果两总体中的所有个体都进行了智力测验，这两个总体智商的平均数差异是否还需要统计检验？

为什么？

（师大学2004）

　　参考答案：

需要。

还需要排除测验中误差的干扰，才能够判断出两总体智商是否存在差异。

　　8.选择统计检验程序的方法时要考虑哪些条件，才能正确应用统计检验方法分析问题？

（师大学2004）

　　参考答案：

　　①总体分布特征

　　②样本容量

　　③总体方差是否已知

　　④对什么统计量进行检验？

　　⑤在进行方差分析时还要考察方差是否齐性、组间变异是否独立

　　9.标准正态分布的曲线有哪些特点？

（华东师大学1997）

　　参考答案：

　　正态分布具有以下特征：

①正态分布的形式是对称的（但对称的不一定是正态的），它的对称轴是经过平均数点的垂线，正态分布中，平均数、中数、众数三者相等，此点y值最大（0.3989），左右不同间距的丁值不同，各相当间距的面积相等，值也相等；②正态分布的中央点（即平均数点）最高，然后逐渐向两侧下降，曲线的形式是先向弯，然后向外弯，拐点位于正负1个标准差处，曲线两端向靠近基线处无限延伸，但终不能与基线相交；③正态曲线下的面积为1，由于它在平均数处左右相对称，故过平均数点的垂线将正态曲线下的面积划分为相等的两部分，各为0.5

　　10．方差分析的逻辑是什么？

（华东师大学1997、2000）

　　参考答案：

依据方差的可加性原理，将组变异与组间变异区分开来，在运用F检验原理，判断实验处理效应与误差效应是否存在显著差异，依次确定实验处理效应的大小。

　　11.完全随机设计和方差分析和随机区组设计的方差分析有什么区别？

（华东师大学2001）

　　参考答案：

一个重要的区别就是将区组方差从组方差中分离出来，使方差分析结果更为精确可靠。

　　12.什么是非参数检验？

它有什么特点？

（华东师大学2001）

　　参考答案：

　　参数检验对欲检验的数据有较高的要求，如正态分布等，而非参数检验对数据的要求较低，适用于不适合参数检验数据的检验。

　　特点：

　　①一般不需要有严格的前提假设；②非参数检验特别适用于顺序资料（等级变量）；③很适用于小样本，且方法简单；④最大的不足是未能充分利用资料的全部信息；⑤非参数方法目前还不能处理“交互作用”。

　　13.为了建立最好的多元线性回归方程，一般采用什么方式选择自变量？

（华东师大学2001）

　　参考答案：

自变量对因变量变异的解释能力

　　14.什么是二元线性标准回归方程（2003华东师大学）

　　参考答案：

两个自变量、数据标准化后的方程

　　15.为什么抽样调查得到的样本统计可以推论总体参数。

（2006师大学）

　　参考答案：

因为总体分布存在一定的理论模型，比如正态分布、二项分布等，样本参数与总体分布之间的差异可以用推论的方式估计出来。

　　16.平均数的显著性检验和平均数差异的显著性检验的区别联系（2005北师）

　　参考答案：

前者检验的是样本平均数与总体平均数之间的差异，后者检验的是两样本代表的不同总体之间的差异是否显著。

　　17.正态分布的标准差有何统计意义，在统计检验中为什么会用到标准差？

（北师大2003）

　　参考答案：

正态分布的标准差仍然是数据离散程度的一个度量指标，在统计检验中，标准差成为度量样本平均数与总体平均数之间差异的重要度量指标。

　　18.正态分布的特征是什么，统计检验中为什么经常要将正态分布转化成标准正态分布？

（北师大2003）

　　参考答案：

正态分布具有以下特征：

①正态分布的形式是对称的（但对称的不一定是正态的），它的对称轴是经过平均数点的垂线，正态分布中，平均数、中数、众数三者相等，此点y值最大（0.3989），左右不同间距的Z值不同，各相当间距的面积相等，值也相等；②正态分布的中央点（即平均数点）最高，然后逐渐向两侧下降，曲线的形式是先向弯，然后向外弯，拐点位于正负1个标准差处，曲线两端向靠近基线处无限延伸，但终不能与基线相交；③正态曲线下的面积为1，由于它在平均数处左右相对称，故过平均数点的垂线将正态曲线下的面积划分为相等的两部分，各为0.5

　　标准正态分布具有固定的标准误与平均数值，能够排除不同样本数据度量单位不同造成的混乱，更易于推断分析。

　　19.在进行差异的显著性检验时，若将相关样本误作独立样本处理，对差异的显著性有何影响，为什么？

（北师大2003）

　　参考答案：

可能会使本来存在显著差异的两组数据变得没有差异，因为如果将相关样本误作为独立样本处理，会减小计算临界Z值时选用的标准误值，从而使本来得到的正确Z值变小，从而增加了不显著的概率值。

　　20.为什么要做区间估计？

怎样对平均数作区间估计？

（北师大2003）

　　参考答案：

原因是想通过样本统计量来预测总体参数的可能区间。

　　根据样本平均数的分布仍然为正态分布这一原理，利用推论统计原理计算出平均数分布的标准误，就可以推论出在一定置信度之上的总体参数置信区间。

　　21.抽样调查要想得到比较准确的结果，需要控制哪些技术环节？

（北师大2003）

　　参考答案：

　　①界定好总体

　　②选择适当的抽样方式，最好遵循随机化原则

　　③标准化施测，尽量排除无关变量的干扰

　　④统计控制，选择适当的统计处理方法

　　22.为什么假设检验中待检验假设为无差异假设？

（2001年北师大）

　　参考答案：

　　假设检验的基本思想是概率性质的反证法，为了检验虚无假设，首先假定虚无假设为真，在这样的前提下，如果导致违反逻辑或违背人们常识和经验的不合理现象出现，则表明“虚无假设为真”的假定是不正确的，也就不能接受虚无假设。

若没有导致不合理现象出现，那就认为“虚无假设为真”的假定是正确的，也就是说要接受虚无假设。

　　这也就是假设检验中的“反证法”思想，但是它不同于纯数学中的反证法。

后者是在假设某一条件下导致逻辑上的矛盾，从而否定原来的假设条件。

而假设检验中的不合理现象“是指小概率事件在一次试验中发生了，它是给予人们在实践中广泛采用的小概率事件原理，该原理认为”小概率事件在一次试验中几乎是不可能发生的“。

　　23.为什么方差分析能够分析出几个平均数的差异？

（2001年北师大）

　　参考答案：

方差分析的基础是方差的可分解性，它可以将来自于多个途径的变异从总变异中分解出来，而后通过检验来判断某种处理产生的变异量的大小。

　　24.指出t=5.53，p小于0.05的含义（2001年北师大）

　　参考答案：

拒绝虚无假设所犯的概率小于0.05

　　25.非参数检验的方法有哪一些？

其各自使用的条件是什么？

（师大学1999）

　　参考答案：

　　秩和检验法：

适用于独立样本均值差异的非参数检验

　　中位数检验：

适用于两独立样本均平均数差异的非参数检验

　　符号检验法：

适用于检验两个配对样本分布的差异

　　符号等级检验法：

同符号检验法，但精度更高

　　26.t检验要满足那些条件才能保证统计分析的有效性？

　（北师大1998）

　　①总体正态分布

　　②总体方差未知

　　③两组比较，多组比较时最好用方差分析

　　27.方差分析之后，平均数进一步检验的步骤（北师大1998）

　　参考答案：

N—K检验法的步骤

（1）把要比较的各个平均数从小到大作等级排列；

（2）根据比较等级和自由度在附表中查相应的q值。

被比较的两个平均数各自在上面的等级排列中所处等级之差再加上1，就是这两个平均数的比较等级，自由度就是方差分析中的误差项自由度；

　　（3）利用公式计算样本平均数的标准误：

　　N相等时，标准误计算公式为：

SE=

　　公式中MSE，是组均方，n是每组容量。

　　N不等时，标准误计算公式为：

SE=

　　其中，n,n分别为两个样本的容量。

　　（4）计算q的临界值（qSE）；

　　（5）统计决断。

　　28.写出二项分布平均数及标准差的计算公式，并

展开阅读全文