统计学大题及答案.pdf

资源描述

统计学大题及答案.pdf

《统计学大题及答案.pdf》由会员分享，可在线阅读，更多相关《统计学大题及答案.pdf（12页珍藏版）》请在冰豆网上搜索。

统计学大题及答案.pdf

统计大题1.简述实验设计的基本要素，基本原则。

原则：

随机化原则，不仅能控制已知的混杂因素（非研究因素），而且还能控制未知的混杂因素。

是保证非处理因素在各对照组之间均衡一致的重要条件；对照原则，排除“非处理因素”的影响，从而衬托处理因素的作用；重复的原则，以提高实验的可靠性。

基本要素：

处理因素，作用于受试对象，要求在实验过程中观察其处理的因素；受试对象，处理因素作用的对象；实验效应，用一空白指标来反映，指标要求精确性、客观性、关联性、灵敏性。

2.描述离散趋势的指标有哪些？

适用于何种情况？

答：

描述离散趋势的指标有全距，是一组变量值中最大值与最小值之差，反映资料的分布范围，全距大说明数据的变异度大，适用于任何资料；四分位间距是两个特定的百分位数，第25%分位数和第75%分位数，常用于描述不对称资料的特征；方差和标准差常用来描述正态分布的资料；变异系数，是标准差与均数之比，常用于比较度量衡单位不同的两组或多组资料的变异度，以及比较均数相差悬殊的两组或多组资料的变异度。

3.描述集中趋势的指标有哪些？

适用于何种情况？

均数，应用甚广，最适用于单峰对称分布，特别是正态分布；几何均数，适用于等比资料，对数正态分布的资料；有些医学资料，如抗体的滴度，细菌计数等，其频数分布呈明显偏态，各观察值之间呈倍数变化（等比关系）中位数及百份位数，适用于任何分布的资料，尤其适用于偏态分布的资料，或分布不明或分布末端无确定值。

4.标准差与标准误有何不同？

答：

1）概念不同：

标准差是由个体变异造成的，标准误是由抽样误差引起的。

将样本统计量的标准差称为标准误。

2）计算公式不同：

JEE1E,7NVn-lx品3）性质不同：

n越大标准差越稳定，标准误越趋近于0。

4）用途不同：

标准差用来估计参考值范围，计算标准误；标准误用来估计正态参数。

5.简述中心极限定理的含义中心极限定理的含义是从均数为口、标准差为。

的总体中独立随机抽样，当样本含量n增加时，样本均数的分布将趋向正态分布，此分布的均数为U,标准差为5X彳=与；中心极限定理表明，即使从非正态总体中随机抽样，只要样本含量足够大，样本均数的分布也趋向正态分布；即使对于总体的精确分布不清楚，我们也可以利用这一特性对他们的抽样误差进行各种分析。

非参数检验适用于哪些情况？

答：

非参数检验应用于以下情况：

不满足参数检验的资料，如偏态分布资料；分布不明的资料；等级资料或开口资料。

第二章1.答：

在统计学中用来描述集中趋势的指标体系是平均数，包括算术均数，几何均数，中位数。

均数反映了一组观察值的平均水平，适用于单峰对称或近似单峰对称分布资料的平均水平的描述。

几何均数：

有些医学资料r如抗体的滴度，细菌计数等，其频数分布呈明显偏态，各观察值之间呈倍数变化（等比关系），此时不宜用算术均数描述其集中位置，而应该使用几何均数（geometricmean）。

几何均数一般用G表示，适用于各变量值之间成倍数关系，分布呈偏态，但经过对数变换后成单峰对称分布的资料。

中位数和百分位数：

中位数（median）就是将一组观察值按升序或降序排列，位次居中的数，常用表示。

理论上数据集中有一半数比中位数小，另一半比中位数大。

中位数既适用于资料呈偏态分布或不规则分布时集中位置的描述,也适用于开口资料的描述。

所谓“开口”资料，是指数据的一端或者两端有不确定值。

百分位数（percentile）是一种位置指标，以PX表示，一个百分位数PX将全部观察值分为两个部分，理论上有X%的观察值比PX小，有（100-X）%观察值比PX大。

故百分位数是一个界值，也是分布数列的一百等份分割值。

显然，中位数即是P50分位数。

即中位数是一特定的百分位数。

常用于制定偏态分布资料的正常值范围。

2.答：

常用来描述数据离散程度的指标有：

极差、四分位数间距、标准差、方差、及变异系数，尤以方差和标准差最为常用。

极差（range,记为A）,又称全距，是指一组数据中最大值与最小值之差。

极差大，说明资料的离散程度大。

用极差反映离散程度的大小，简单明了，故得到广泛采用，如用以说明传染病、食物中毒等的最短、最长潜伏期等。

其缺点是：

1.不灵敏；2.不稳定。

四分位数间距（inter-quartilerange）就是上四分位数与下四分位数之差，即：

0=Q-Q,其间包含了全部观察值的一半。

所以四分位数间距又可看成中间一半观察值的极差。

其意义与极差相似，数值大，说明变异度大；反之，说明变异度小。

常用于描述偏态分布资料的离散程度。

极差和四分位数间距均没有利用所研究资料的全部信息，因此仍然不足以完整地反映资料的离散程度。

方差（variance）和标准差（standarddeviation）由于利用了所有的信息，而得到了广泛应用，常用于描述正态分布资料的离散程度。

变异系数（coefficientofvariance,CV）亦称离散系数（coefficientofdispersion）,为标准差与均数之比，常用百分数表示。

变异系数没有度量衡单位，常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。

3.答：

常用的相对数指标有：

比，构成比和率。

比（ratio）,又称相对比，是A、B两个有关指标之比，说明A为B的若干倍或百分之几，它是对比的最简单形式。

其计算公式为比=人/6率（rate）又称频率指标，用以说明某现象发生的频率或强度。

常以百分率（）、千分率（。

）、万分率（1/万）、十万分率（1/10万）等表示。

计算公式为：

构成比（proportion）又称构成指标，它说明一种事物内部各组成部分所占的比重或分布，常以百分数表示，其计算公式为：

20、何为标准化法？

直接标准化与间接标准化法的区别？

采用某影响因素（如年龄、性别）的统一标准构成，然后计算标准化率的方法称为标准化法，其目的是消除原样本内部某因素构成不同对合计率的影响，使通过标准化后的标准化合计率具有可比性。

直接标准化法和间接标准化法的主要区别：

如对死亡率的年龄构成标准化，若已知年龄别死亡率，可采用直接法，选择一个标准年龄人口构成直接计算标准化率；若只有总的死亡数和年龄别人口数而缺乏年龄别死亡率，选择一个标准年龄别死亡率，先计算标准化死亡比（SMR）,再用SMR乘以标准总死亡率得标准化死亡率。

21、应用标准化率进行比较时要注意什么问题？

标准化只适用于因两组内总构成不同，并有可能影响两组总率比较的情况。

对于因其它条件不同而产生的可比性问题，标准化法不能解决。

由于选择的标准人口不同，算出的标准化率也不同。

因此，当比较几个标准化率时，应采用同一标准人口。

标准组应选择有代表性的、较稳定的、数量较大的人群。

标准化后的标准率，已经不再反映当时当地的实际水平，它只是表示相互比较的资料间的相对水平。

两样本标准化率是样本值，存在抽样误差。

比较两样本的标准化率，还应作假设检验。

5、变异系数（CV）常用于哪几方面？

答：

变异系数是变异指标之一，它常用于以下两个方面：

比较均数相差悬殊的几组资料的变异度。

如比较儿童的体重与成年人体重的变异度，应使用CV；比较度量衡单位不同的几组资料的变异度。

如比较同性别，同年龄人群的身高和体重的变异度时，宜用CV。

第三章1正态分布与标准正态分布的区别：

正态分布是一簇单峰分布的曲线，口和。

可以有任意取值；标准正态分布是一条单峰曲线，口和。

有固定的值，U=o,0=lo1、试述正态分布、标准正态分布以及对数正态分布的联系和区别？

正态分布标准正态分布对数正态分布原始值X无需转换作U=（X-H）/转换作Y=lgX转换分布类型对称对称正偏态集中趋势指标口G均数与中位数的关系u=Mu=M2、说明频数分布表的用途？

描述频数分布的特征、描述频数分布的类型、便于发现一些特大或特小的可疑值、便于进一步做统计分析和处理3医学参考值范围含义：

是根据正常人的数据估计绝大多数正常人某项指标所在的范围。

选定同质的正常人作为研究对象。

所谓正常人是指不具有影响所测指标的因素或疾病的那类同质人群。

确定原则：

选定同质的正常人群作为研究对象控制检测误差判断是否分组单、双侧问题选择百分界值确定可疑范围方法：

正态分布法：

适用于服从正态分布或近似正态分布的资料百分位数法：

适用于不服从正态分布的资料对数正态分布法：

适用于对数正态分布的资料23、简述二项分布的应用条件？

每次试验只会发生两种互斥的可能结果之一，即两种互斥结果的概率之和恒等于1:

每次试验产生某种结果（如阳性）的概率固定不变重复试验是互相独立的，即任何一次试验结果的出现不会影响其它试验结果出现的概率24、简述POSSION分布的性质特征？

_2总体均数人与总体方差相等当N很大，而很小，且万=人为常数时，Poisson可看作是二项分布的极限分布；当入增大时，Poisson分布渐近正态分布。

一般而言，人20时，Poisson分布资料可作为分布处理Poisson分布具备可加性。

即对于服从Poisson分布的m个互相独立的随机变量XI,X2,Xm,它们之和也服从Poisson分布，且其均数为这M个随机变量的均数之和。

25、简述二项分布与POSSION分布的区别？

所谓随机变量X服从二项分布，是指在N重Bernoulli试验中，发生某种结果（如“阳性”）的次数X=P（X）=产x（1,乃）“-X0,1,2,，n的一种概率分布，其恰好发生X个阳性的概率为X!

（-X）!

，且总有NZP（X）=1x=。

而所谓随机变量服从Poisson分布，是指X满足：

取值范围为0,1,2相应的概率P（X）=-ZP（X）=1为X!

且总有X=。

在总体率乃很小，而样本含量（试验次数）N趋向于无究大时，二项分布近似与Poisson分布。

因此，Poisson分布可看做是二项分布的一种极限情况，可用来描述小概率事件发生的规律性。

26、简述二项分布、POSSION分布和正态分布间联系？

当N很大，而乃很小，且万=人为常数时，Poisson分布是二项分布的极限分布在N很大，不接近。

也不接近1时，二项分布B（N,不）近似正态分布N（万，（5（1一）2）,而相应的样本率P的分布也近似正态分布N（u,sh当入增大时，Poisson分布渐近正态分布。

一般而言，人20时，Poisson分布资料可作为正态分布处理第四章1t检验标准差标准误不同：

意义上：

描述一组变量值的离散程度描述样本均数的离散称度应用上：

1、标准差越小，说明变量值围绕均值分布越紧密，均数的代表性越好。

1、标准误越小，说明样本均数和总体均数的差异越小，用样本均数估计总体均数的可靠性越大。

2、亍估计变量值的分布范围。

2、用亍土%?

估计总体均数的可信区间。

与n的关系：

n越大，标准差越稳定n越大，标准误越小相同：

1、都是描述变异度的统计指标2、%=子/与4成正比，与分成反比；3,n一定时，同一组资料，标准差越大，标准误也越大。

3配对设计的差值的总体均数的可信区间表达公式：

dtan_ts3两均数差值的总体均数的可信区间表达公式：

参考值范围与可信区间区别是什么？

答：

（1）意义不同：

参考值范围是指同质总体中包括一定数量（如95%或99%）个体值的估计范围，如95%参考值范围，意味该数值范围只包括95%的个体值，有5%的个体值不在此范围内。

可信区间是指按一定的可信度来估计总体参数所在范围。

如95%的可信区间，意味着做100次抽样，算得100个可信区间，平均有95个可信区间包括总体参数（估计正确）有5个可信区间不包括总体均数（估计错误）。

（2）计算方法不同：

参考值范围用XuaS计算。

可信区间用Xta、vSx或XuaSx计算；前者用标准差，后者用标准误。

均数的可信区间与参考值范围有何不同？

可信区间假设检验参考值范围总体均数置信区间意义绝大多数人某项指标的数值范围按一定的概率估计参数所在的可能范围计算正态分布：

（双侧）元一Z&S或无+Z&S（单侧）偏峰分布：

2/24（双侧）（单侧）正态分布：

未知：

XL/2*S,（双侧）x一%岳或x+L,s又（单侧）a已知:

X士Za/2%（双侧）又一或反+（单侧）正态分布或偏峰分布：

b未知但n足够大：

刀土Z”2s北（双侧）又一或反+Z&S（单侧）应用供判断观察对象某项指标正常与否时参考（辅助诊断）估计未知的总体均数所在范围可以用可信区间回答假设检验的问题。

可信区间估计与假设检验时统计学中两种重要的、独特的思维方式，它们在原理上相通，均基于抽样误差理论，只是考虑问题的角度不同。

例如：

样本均数与总体均数的比较，用可信区间的估计方法，观察由样本信息估计的总体均数的可信区间是否包含已知的总体均数，即可推断该样本是否来自己知均数的总体；用假设检验的方法，先假设样本均数代表的总体均数等于某已知的总体均数，再判断样本提供的信息是否支持这种假设。

假设检验和区间估计有何联系？

假设检验用于推断质的不同即判断两个（或多个）总体参数是否不同，而可信区间用于说明量的大小即推断总体参数的范围。

可信区间可以回答假设检验的问题，若算得的可信区间包含了“。

，则按a水准，不拒绝”。

；若不包含”。

，则按a水准，拒绝。

，接受i.置信区间可提供假设检验没有提供的信息，它在回答差别有无统计学意义的同时，还可以提示差别是否具有实际意义。

在统计推断结论为拒绝”。

时，假设检验可以报告确切的P值，从而较精确地说明检验结论的概率保证。

置信区间只能在预先确定的置信度100（1-a）强水平上进行推断。

在不能拒绝的场合，假设检验可能对检验功效做出估计，从而可以评价是否在识别差异能力较强的情形下不不拒绝H。

而置信区间并不提供这方面的信息。

第一类错误第二类错误4拒绝实际上成立的Ha,则不拒绝“。

，无统计学意义，还不能论为不同或不等。

9、怎样正确选用单侧检验和双侧检验？

单双侧检验首先应根据专业知识来确定，同时应考虑所要解决问题的目的.若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果，则用单侧检验；在尚不能从专业知识判断两种结果谁高谁低时，用双侧检验。

若研究者对低于或高于两种结果都关心，则用双侧检验；若仅关心其中一种可能，则取单侧检验。

一般认为双侧检验较保守和稳妥，单侧检验由于充分利用了另一侧的不可能性，故更易得出有差别的结论，但应慎用。

假设检验的意义以及需要注意的问题6假设检验的意义就是分辨所研究的样本是否分别属于不同的总体，并对总体做出适当的结论。

假设检验应注意的问题：

要有严密的抽样研究计划：

要保证样本是从同质总体中随机抽取，除了对比的因素外，其他影响结果的因素应一致。

选用的假设检验方法应符合应用条件。

结论不能绝对化。

正确理解差别有无显著性的统计意义：

差别有统计意义或有显著性，指我们有很大的把握认为原假设不成立，并非是说它们有较大差别；差别无统计学意义或无显著性，我们只是认为以很大的把握拒绝原假设的理由还不够充分，并不意味着我们很相信它。

统计学意义与其他专业上的意义不同。

14、方差分析的基本思想和应用条件是什么？

根据试验设计的类型，将全部测量值总的离均差平方和及其自由度分解为两个或多个部分，除随机误差作用外，每个部分的变异可由某个因素的作用（或某几个因素的交互作有）加以解释，如组间变异SS组间可同处理的作用加以解释。

通过比较不同变异来源的均方，借助F分布做出统计推断，从而推论各种研究因素对试验结果有无影响。

方差分析应用的条件：

各样本是相互独立的随机样本，均服从正态分布；相互比较的各样本的总体方差相等，即具有方差齐性。

15、在完全随机设计方差分析中SS组间、SS组内各表示什么含义？

SS组间表示组间变异，指各处理组样本均数大小不等，是由处理因素作用和随机误差造成的；SS组内表示组内变异，指各处理组内变量值大小不等，是由随机误差造成的。

16、为什么在方差分析的结果为拒绝”。

、接受出之后，对多个样本均数的两两比较要用多重比较的方法？

方差分析的备择假设凡是G个总体均数不全相等，拒绝“。

，接受匕，只说明G个总体均数总的来说有差别，并不说明两两总体均数都有差别。

若想进一步了解哪两两总体均数不等，则需进行多个样本均数间的多重比较。

17、随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同？

区别点完全随机设计随机区组设计设计采用完全随机化的分组方法，将全部试验对象分配到g个处理组（水平组），各组分别接受不同的处理随机分配的次数要重复多次，每次随机分配都对同一个区组内的受试对象进行，且各个处理组受试对象数量相同，区组内均衡变异分解三种变异：

SS总=$组间+SS组内四种变异：

SS总=$处理+SS区组+SS误差第八早27、说明卡方检验的用途？

推断两个总体率或构成比之间有无差别；推断多个总体率或构成比之间有无差别；多个样本率比较的卡方分割；？

两个分类变量之间有无关联性；频数分布拟合优度的卡方检验。

16、四格表资料的u检验和X2检验的应用条件有何异同？

答：

（1）相同点：

四格表资料的u检验是根据正态近似原理进行的，凡能用u检验对两样本率进行检验的资料，均能使用X2检验，两者是等价的，即u2=X2；u检验和X2检验都存在连续校正的问题。

（2）不同点：

由于u分布可确定单、双侧检验界值，可使用u检验进行单侧检验；满足四格表u检验的资料，可计算两率之差的95%可信区间，以分析两率之差有无实际意义；X2检验可用于2X2列联表资料有无关联的检验。

但U检验通常用于大样本，而卡方检验可用于大样本或小样本。

29、对于四格表资料，如何正确选用检验方法？

首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。

2对于两样本率比较的四格表资料，应根据各格的理论值T和总例数n的大小选择不同的力一计算公式：

A、2_y（A-T）2当n240且所有的T25时，用力检验的基本公式1或四格表资料力检验的专用公式2_（ad-be）2n”a+b）（c+d）（a+c）（b+d）2v（|A-T|-0.5）22x-B、当n240但有1WTV5时，用四格表资料,检验的校正公式1或（|ad-bc-）2n片=-（a+b）（C+4）（a+C）S+d）,或改用四格表资料的Fisher确切概率法；C、当n40,b+c；2（l-c|-l）2%.=-B、（b+c）40,b+c30、说明行*列表资料卡方检验应注意的事项？

R*C表中的理论频数不应小于1,或1W1X5的格子数不宜超过格子总数的1/5.多个样本率比较，若所得统计推断为拒绝接受d时，只能认为各总率之间总的来说有差别，但不能说明任两个总体率之间皆有差别。

要进一步推断两个总体率之间有差别，需进一步做多个样本率的卡方分割或多重比较对于有序R*C表资料不宜用卡方检验。

对于R*C表的资料要根据其分类类型和研究目的选用恰当的检验方法。

31、说明R*C表的分类及其检验方法的选择？

R*C分类：

双向无序，单向有序，双向有序属性同和双向有序属性不同4类检验方法的选择：

双向无序R*C表：

若研究目的为多个样本率（或构成比）的比较，可用R*C表的卡方检验；若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时，可用R*C表资料的卡方检验以及Pearson列联系数进行分析单向有序R*C表：

若R*C表中的分组变量是有序的，而指标变量是无序的，此种单向有序R*C表资料可用R*C表资料的卡方检验分析其构成情况；若R*C表中的分组变量为无序的，而指标变量是有序的，此种单向有序R*C表资料宜用秩和检验分析。

双向有序属性相同的R*C表：

宜用一致性检验分析两种检测方法的一致性双向有序属性不同的R*C表：

若研究目的如为分析不同年龄组患者疗效之间有无差别时;可把它视为单向有序R*C表资料，选用秩和检验；若研究目的为分析两有序分类变量间是否存在相关关系，宜用等级相关分析或Pearson积矩相关分析；若研究目的为分析两有序分类变量间是否存在线性变化趋势，宜用有序分组资料的线性趋势检验。

17、参数检验与非参数检验有何区别？

各有何优缺点？

答：

参数检验是检验总体参数是否有差别，而非参数检验是检验总体分布的位置是否相同。

参数检验的优点是能充分利用样本资料所提供的信息，因此，检验效率较高。

其缺点是有较严格的使用条件，如要求总体的分布呈态分布，各总体方差要相等，有些资料不满足使用条件，就不能用参数检验。

非参数检验的优点是适用范围广。

它不要求资料分布的形式，另外可用于等级资料或不能确切定量的资料。

缺点是不能充分利用样本所提供的信息，因此检验效率较低，产生第二类错误较大。

18、非参数检验适用于哪些情况？

答：

非参数检验应用于以下情况：

不满足参数检验的资料，如偏态分布资料；分布不明的资料；等级资料或开口资料。

33、什么叫秩转换的非参数检验？

它适用于哪些情况？

秩转换非参数检验是先将数值变量从小到大，或等级从弱到强转换成秩后，再计算检验统计量，其特点是假设检验的结果对总体分布的形状差别不敏感，只对总体分布的位置差别敏感。

它适用于：

不满足正态或（和）方差齐性的小样本计量资料；分布不知是否正态的小样本资料：

一端或两端是不确切数值的资料；等级资料。

34、两组或多组等级资料的比较，为什么不能用卡方检验，而用秩转换的非参数检验？

若选R*C表资料的卡方检验，只能推断两个或多个总体的等级构成比差别，这一般不是推断的目的；而选秩转换的非参数检验，可推断两个或多个总体的等级强度差别，这是推断目的。

19、直线回归与相关有何区别和联系？

答：

1、区别：

在资料要求上，回归要求因变量y服从正态分布，自变量x是可以精确测量和严格控制的变量，一般称为I型回归；相关要求两个变量x、y服从双变量正态分布。

这种资料若进行回归分析称为H型回归。

在应用上，说明两变量间依存变化的数量关系用回归，说明变量间的相关关系用相关。

2、联系：

对一组数据若同时计算r与b,则它们的正负号是一致的；r与b的假设检验是等价的，即对同一样本，二者的t值相等。

可用回归解释相关。

39、简述直线回归与直线相关的区别与联系？

二者的联系：

对于既可作相关又可作回归分析的同一组数据，计算出的b与r正负号一致相关系数与回归系数的假设检验等价，即对于同一样本，th=tr;同一组数据的相关系数和回归系数可以相互换算：

r=b-XSJS、用回归解释相关：

由于决定系数，=ss回/SS总，当总平方和固定时，回归平方和的大小决定了相关的密切程度，回归平方和越接近总平方和，则产越接近1,说明相关的效果越好二者的区别：

资料要求上：

相关要求X、Y服从双变量正态分布，这种资料进行回归分析称为II型回归；回归要求Y在给定的某个X值时服从正态分布，X是可以精确测量和严格控制的变量，称为I型回归应用上：

说明两变量间相互关系用相关，此时两变量的关系是平等的；而说明两变量依存变化的数量关系用回归，用以说明Y如何依赖于X而变化意义上：

R说明具有直线关系的两变量间相互关系的方向与密切程度；b表示X每变化一个单位所导致Y的平均变化量。

计算上：

r=b=j-t（X,又尸/=1取值范围：

一IWrWl,-8WbW8。

单位：

r没有单位，b有单位。

40、简述直线回归与秩相关的区别与联系？

二者的联系：

两者所解决的应用问题相同，都可用来表示两个数值变量之间关系的方向和密切程度两个相关系数都没有单位，取值范围都在（一1,1）之间二都的区别资料要

展开阅读全文