统计简答题.docx
《统计简答题.docx》由会员分享,可在线阅读,更多相关《统计简答题.docx(11页珍藏版)》请在冰豆网上搜索。
![统计简答题.docx](https://file1.bdocx.com/fileroot1/2022-12/13/1f287c76-e9ee-44de-baa6-b6c75656280a/1f287c76-e9ee-44de-baa6-b6c75656280a1.gif)
统计简答题
1.简述描述一组资料的集中趋势和离散趋势的指标。
集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:
平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。
算术均数:
适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:
对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:
适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
描述离散趋势的指标:
极差、四分位数间距、方差、标准差和变异系数。
四分位数间距:
适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:
都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:
主要用于量纲不同时,或均数相差较大时变量间变异程度的比较
2.举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?
度量衡单位不同的多组资料的变异度的比较。
例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。
3.试比较标准差和标准误的关系与区别。
区别:
⑴标准差S:
①意义:
描述个体观察值变异程度的大小。
标准差小,均数对一组观察值得代表性好;②应用:
与均数结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:
n越大,S越趋于稳定;⑵标准误SX:
①意义:
描述样本均数变异程度及抽样误差的大小。
标准误小,用样本均数推断总体均数的可靠性大;②应用于均数结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:
n越大,SX越小。
联系:
①都是描述变异程度的指标;②由SX=s/n-1可知,SX与S成正比。
n一定时,s越大,SX越大。
4.简述应用相对数时的注意事项。
应用相对数应该注意:
①防止概念混淆,避免以比代率的错误现象;②计算相对数时分母应有足够数量,如果例数较少会使相对数波动较大,应该使用绝对数;③正确的计算频率(或强度)指标的合计值。
当分组的资料需要合并起来估计频率(或强度)时,应将各组频率的分子相加作为合并估计的分子,各组的分母相加作为合并估计的分母;④频率型指标的解释要紧扣总体和属性;⑤相对数间比较要具备可比性:
要注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同时期资料应注意客观条件是否相同;⑥正确进行相对数的统计推断:
在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此要进行参数估计和假设检验。
5.说明率的标准化的基本思想及注意事项。
标准化:
两个率或多个率之间进行比较时,为消除内部构成不同的影响,采用统一的标准,对两组或多组资料进行校正(调整),计算得到标准化率后再做比较的方法,称为“标准化”。
其目的是统一内部构成,消除混杂因素,是资料具有可比性。
应用标准化法的注意事项:
①标准化法的应用范围很广。
当某个分类变量在两组中分布不同时,这两个分类变量就成为两组频率比较的混杂因素,标准化的目的是消除混杂因素。
②标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相对水平。
③标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比较。
选择不同的标准,算出的标准化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由。
④两样本标准化率是样本值,存在抽样误差。
比较两样本标准化率,当样本含量较小时,还应作假设检验。
6.简述二项分布、Poisson分布、正态分布三者的关系。
①二项分布与Poisson分布的关系:
当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于Poisson分布P(n,π);
②二项分布与正态分布的关系:
当n较大,π不接近0或1(特别是当nπ和n(1-π)均大于5时),二项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));
③Poisson分布与正态分布的关系:
当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。
7.试述假设检验中I型错误与II型错误的意义及关系。
实际情况
统计推断
拒绝H0,有差异
不拒绝H1,无差异
H0成立,无差异
第Ⅰ类错误概率=α
正确概率1-α
H1成立,有差异
正确概率1-β
第Ⅱ类错误概率=β
关系:
①α+β不一定等于1。
②在样本容量确定的情况下,α与β不能同时增加或减少。
③统计检验力(1-β)。
④同时减少αβ的方法是增加样本容量
8.参考值范围与总体均数置信区间的区别。
区别点
均数的可信区间
参考值范围
意
义
按预先给定的概率所确定的未知参数的可能范围。
实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。
但可以说:
该可信区间有多大(如当α=0.05时为95%)的可能性包含了总体均数。
“正常人”的解剖、生理、生化某项指标的波动范围。
计算
公式
σ未知:
*
σ已知:
**
σ未知但n>60:
**
正态分布:
**
偏态分布:
PX~P100-X
用途
估计总体均数
判断观察对象的某项指标正常与否
10.医院拟研究某新药治疗高血压的疗效,试确定该研究设计中的三要素。
实验设计的基本要素:
受试对象、处理因素、实验效应;受试对象即为高血压患者,且应分实验组与对照组;处理因素至少应包括旧药治疗、新药治疗,最好设有安慰剂治疗;实验效应即疗程开始及结束时患者血压变化状况。
11.简述非参数检验的应用条件和优缺点。
非参数检验适用于:
①有序变量资料;②总体分布类型不明的资料;③分布不对称且无法转化为正态分布资料;④对比组间方差不齐,有无适当变换方法达到方差齐性的资料;⑤一端或两端观察值不确切的资料;⑥等级资料。
优缺点:
不以特定的总体分布为前提,也不针对决定总体分布的几个参数做推断,进行的是分布之间的检验。
一般不直接用样本观察值做分析,统计量的计算基于原数据在整个样本中按大小所占位次。
由于丢弃了观察值的具体数据,只保留了大小次序的信息,凡适合参数检验的资料,应首选参数检验。
12.举例简要说明随机区组设计资料秩和检验的编秩方法。
随机区组设计资料秩和检验的编秩方法为将每个区组的数据由小到大分别编秩,遇相同数据取平均秩次,按处理因素求秩和;T++T-=n(n+1)/2。
13.简述相关分析的步骤。
①进行相关分析前,应先绘制散点图。
只有散点有线性趋势时,才能进行直线相关分析。
②线性相关分析要求两个变量都是随机变量,而且仅适用于二元正态分布资料;③出现离群值慎用相关;④相关关系不一定是因果关系;⑤分层资料盲目合并易出现假象;⑥样本的相关系数接近零并不意味着两变量间一定无相关性,有可能是非线性的曲线关系。
14.简述回归模型的适用条件。
线性回归模型的适用条件:
①线性:
因变量Y与自变量X称线性关系;②独立:
每个个体观察值之间互相独立;③正态性:
任意给定X值,对应的随机变量Y都服从正态分布;④等方差性:
在一定范围内不同的X值所对应的随机变量Y的方差相等。
简记为LINE。
15.试述直线相关与直线回归的区别与联系。
⑴区别:
①单位:
相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关;②应用目的:
说明两变量间的关联性用相关分析,说明两者依存变化的数量关系则用回归分析;③对资料的要求不同:
线性回归要求应变量Y是服从正态分布的随机变量;线性相关要求两个变量X和Y为服从双变量正态分布的随机变量。
④取值范围:
-∞
回归系数b表示X每增(减)一个单位,Y平均改变b个单位;相关系数r说明具有线性关联的两个变量间关系的密切程度与相关方向;⑤计算:
⑵联系:
①方向一致:
r与b的正负号一致;②假设检验等价:
tr=tb;;④用回归解释相关决定系数(coefficientofdetermination):
回归平方和越接近总平方和,则r2越接近1,相关性越好。
16.估计样本例数的意义何在?
需要确定哪些前提条件?
样本含量估计充分反映了"重复"的基本原则,过小过大都有其弊端。
样本含量过小,所得指标不稳定,用以推断总体的精密度和准确度差;检验的功效低,应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据。
样本含量过大,会增加实际工作的困难,浪费人力、物力和时间。
可能引入更多的混杂因素,从而影响数据的质量。
实验所需的样本含量取决于4个因素:
(1)假设检验的第Ⅰ类错误的概率α
(2)假设检验的第Ⅱ类错误的概率β(3)容许误差δ(4)总体标准差ς或总体概率π。
17.以四格表资料的卡方检验为例,简述假设检验的基本思想
如果H0假设成立,则实际频数与理论频数应该比较接近,如果实际频数与理论频数相差较大,超出了抽样误差所能解释的范围,则可认为H0假设不成立,计量样本对应的总体率不相等。
18.某地1岁婴儿平均血红蛋白的95%可信区间为116.2~130.1(g/L),表示什么意义?
该地1岁正常婴儿的血红蛋白95%的参考值范围为111.2~135.1(g/L),又说明了什么含义?
某地1岁婴儿平均血红蛋白的95%可信区间为116.2~130.1(g/L)是指每100个样本所算得的95%可信区间,平均有95个可信区间包含了1岁婴儿平均血红蛋白总体均数。
1岁正常婴儿的血红蛋白95%的参考值范围为111.2~135.1(g/L)的含义是95%的正常婴儿的血红蛋白在111.2~135.1(g/L)范围内
19.说明频数分布表的用途。
频数分布表的用途是:
描述频数分布的类型;描述频数分布的特征;便于发现一些特大或特小的可疑值;便于进一步做统计分析和处理。
20.试述正态分布的面积分布规律。
轴与正态曲线所夹面积恒等于
或
;区间
的面积为
,区间
的面积为
,区间
的面积为
。
21.假设检验中和P的区别何在?
和P均为概率,其中是指拒绝了实际上成立的H0所犯错误的最大概率,是进行统计推断时预先设定的一个小概率事件标准。
P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。
在假设检验中通常是将P与对比来得到结论,若P≤,则拒绝H0,接受H1,有统计学意义,可以认为……不同或不等;否则,若P>,则不拒绝H0,无统计学意义,还不能认为……不同或不等
22.假设检验时,当
,则拒绝
,理论依据是什么?
P值是指从H0规定的总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值(如t或u)的概率。
当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05。
因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现有样本信息不支持H0,所以怀疑原假设H0不成立,故拒绝H0。
在下“有差别”的结论的同时,我们能够知道可能犯I型错误的概率不会大于0.05(即通常的检验水准),这在概率上有了保证。
23.怎样正确选用单侧检验和双侧检验?
单双侧检验首先应根据专业知识来确定,同时也应考虑所要解决问题的目的。
若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验。
在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。
若研究者对低于或高于两种结果都关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。
一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。
24.为什么假设检验的结论不能绝对化?
因为通过假设检验推断作出的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。
拒绝H0时,可能犯I型错误;“接受”H0时可能犯II型错误。
无论哪类错误,假设检验都不可能将其风险降为0,因此在结论中使用绝对化的字词如“肯定”,“一定”,“必定”就不恰当。
25.为什么不能以构成比代率?
请联系实际加以说明。
率和构成比所说明的问题不同,因而绝不能以构成比代率。
构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。
例如:
以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。
这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。
但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。
若要比较高血压的患病率,应该计算患病率指标
26.方差分析的基本思想和应用条件是什么?
方差分析的基本思想就是根据试验设计的类型,将全部测量值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异
可由处理因素的作用加以解释。
通过比较不同变异来源的均方,借助F分布做出统计推断,从而推论各种研究因素对试验结果有无影响。
方差分析的应用条件:
①各样本是相互独立的随机样本,均服从正态分布;②相互比较的各样本的总体方差相等,即具有方差齐性。
27.为什么在方差分析的结果为拒绝H0、接受H1之后,对多个样本均数的两两比较要用多重比较的方法?
方差分析的备择假设H1是g个总体均数不全相等,拒绝H0,接受H1,只说明g个总体均数总的来说有差别,并不说明两两总体均数都有差别。
若想进一步了解哪两两总体均数不等,则需进行多个样本均数间的多重比较。
28.对于四格表资料,如何正确选用检验方法?
(1)首先应分清是两样本率比较的四格表资料还是配对设计的四格表资料。
(2)对于两样本率比较的四格表资料,应根据各格的理论值T和总例数n的大小选择不同的
计算公式:
①当
且所有的
时,用
检验的基本公式
或四格表资料
检验的专用公式
;②当
但有
时,用四格表资料
检验的校正公式
或
,或改用四格表资料的Fisher确切概率法;③当
,或
时,用四格表资料的Fisher确切概率法。
若资料满足两样本率
检验的条件,也可用
检验。
(3)对于配对设计的四格表资料,若检验两种方法的检测结果有无差别时①当
时,
;②当
时,
29.什么叫做非参数检验?
它和参数检验有什么区别?
非参数检验对总体分布不作严格假定,不受总体分布的限制,又称任意分布检验,它直接对总体分布(或分布位置)作假设检验。
如果总体分布为已知的数学形式,对其总体参数作假设检验则为参数检验。
30.简述直线相关与秩相关的区别与联系。
二者的联系:
(1)两者所解决的应用问题相同,都可用来表示两个数值变量之间关系的方向和密切程度。
(2)两个相关系数都没有单位,取值范围都在-1~1之间。
(3)计算上,用秩次作积差相关,得到的就是秩相关系数。
二者的区别:
(1)资料要求不同。
积差相关要求
、
服从双变量正态分布,秩相关可以是任意分布。
(2)由于对资料要求不同,二者分属于参数统计与非参数统计方法,所以符合双变量正态分布条件时,积差相关的效率高于秩相关。
(3)二者假设检验方法不同。
31.统计表有哪些要素构成?
制表的注意事项有哪些?
一般说来,统计表由标题、标目、线条、数字四部分构成(有时附有备注)。
编制统计表的注意事项:
(1)标题概括表的内容,写于表的上方,通常需注明时间与地点。
(2)标目以横、纵标目分别说明主语与谓语,文字简明,层次清楚。
(3)线条不宜过多,通常采用三条半线表示,即顶线、底线、纵标目下的横隔线及合计上的半条线。
(4)表内一律采用阿拉伯数字。
同一指标小数点位数要一致,数次要对齐。
表内不留空格。
(5)备注不要列于表内,如有必要,可在表内用“*”号标记,并在表外加以说明。
32.试述x2检验的基本思想
检验的基本思想是以
值的大小来反映理论频数T与实际频数A的吻合程度。
在零假设
(比如
:
)成立的条件下,实际频数与理论频数相差不应该很大,即
值不应该很大,若实际计算出的
值较大,超过了设定的检验水准所对应的界值,则有理由怀疑
的真实性,从而拒绝
,接受H1(比如
:
)。
33.非参数统计的特点和适用范围.
(1)对样本所来自的总体的分布形式不作要求,分布未知都能适用。
(2)收集资料方便,可用“等级”或“符号”来评定观察结果。
(3)多数非参数方法比较简便,易于理解和掌握。
(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。
适用范围:
(1)等级资料。
(2)偏态分布资料。
当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。
(3)各组离散程度相差悬殊,即方差明显不齐,且通过变换亦不能达到齐性。
(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。
(5)分布类型不明。
(6)资料初步分析。
34.两组或多组等级资料的比较,为什么不能用x2检验,而用秩转换的非参数检验?
若选行×列表资料的
检验,只能推断两个或多个总体的等级构成比差别,这一般不是推断目的;而选秩转换的非参数检验,可推断两个或多个总体的等级强度差别,这是推断目的。
35.普通线图和半对数线图的主要区别是什么?
从形式上看,二者的不同点在于纵坐标的尺度不同,普通线图的纵坐标为算术尺度,而半对数线图的纵坐标为对数尺度。
从用途上看,普通线图描述的是统计量的绝对变化趋势,半对数线图描述的是相对变化趋势,特别适宜作不同指标或相同指标不同组别的变化速度的比较。
36.对同一资料,又出自同一研究目的,用参数检验和非参数检验所得结果不一致时,宜以何者为准?
参数检验和非参数检验各有适用条件,究竟取哪种结论,要根据资料是否满足该种检验方法的应用条件进行选择。
在符合参数检验的条件时,可接受参数检验的结论,而资料不符合参数检验的条件时,应以非参数检验为佳。
以t检验为例,如总体分布为极度偏态或其他非正态分布,或者两总体方差不齐时,此时宜采用秩和检验的结果。
37.某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?
为什么?
不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
既使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。