医学统计学课后习题含答案.docx
《医学统计学课后习题含答案.docx》由会员分享,可在线阅读,更多相关《医学统计学课后习题含答案.docx(117页珍藏版)》请在冰豆网上搜索。
医学统计学课后习题含答案
医学统计学
第一章绪论
答案
名词解释:
(1)同质与变异:
同质指被研究指标的影响因素相同,变异指在同质的根底上各观察单位〔或个体〕之间的差异。
(2)总体和样本:
总体是根据研究目确实定的同质观察单位的全体。
样本是从总体中随机抽取的局部观察单位。
(3)参数和统计量:
根据总体个体值统计算出来的描述总体的特征量,称为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为样本统计量。
(4)抽样误差:
由抽样造成的样本统计量和总体参数的差异称为抽样误差。
(5)概率:
是描述随机事件发生的可能性大小的数值,用p表示
(6)计量资料:
由一群个体的变量值构成的资料称为计量资料。
(7)计数资料:
由一群个体按定性因数或类别清点每类有多少个个体,称为计数资料。
。
(8)等级资料:
由一群个体按等级因数的级别清点每类有多少个体,称为等级资料。
是非题:
1.×
2.×
3.×
4.×
5.√
6.√
7.×
单项选择题:
1.C
2.E
3.D
4.C
5.D
6.B
第二章计量资料统计描述及正态分布
答案
名词解释:
1.平均数 是描述数据分布集中趋势〔中心位置〕和平均水平的指标
2.标准差 是描述数据分布离散程度〔或变量变化的变异程度〕的指标
3.标准正态分布以μ服从均数为0、标准差为1的正态分布,这种正态分布
称为标准状态分布。
4.参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指
标范围称为指标的正常值范围。
填空题:
1.计量,计数,等级
2.设计,收集资料,分析资料,整理资料。
3.
〔变量变换〕标准正态分布、0、1
4.
68.27%95%99%
5.47.5%
6.均数、标准差
7.全距、方差、标准差、变异系数
8.
9.全距R
10.检验水准、显著性水准、0.05、0.01〔0.1〕
11.80%90%95%99%95%
12.95%99%
13.集中趋势、离散趋势
14.中位数
15.同质根底,合理分组
16.均数,均数,μ,σ,规律性
17.标准差
18.单位不同,均数相差较大
是非题:
1.×
2.√
3.×
4.×
5.×
6.√
7.√
8.√
9.√
10.√
11.√
12.√
13.×
14.√
15.√
16.×
17.×
18.×
19.√
20.√
21.√
单项选择题:
1.B
2.D
3.C
4.A
5.C
6.D
7.E
8.A
9.C
10.D
11.B
12.C
13.C
14.C
15.A
16.C
17.E
18.C
19.D
20.C
21.B
22.B
23.E
24.C
25.A
26.C
27.B
28.D
29.D
30.D
31.A
32.E
33.D
34.A
35.D
36.D
37.C
38.E
39.D
40.B
41.C
42.B
43.D
44.C
45.B
问答题:
1.均数﹑几何均数和中位数的适用范围有何异同?
答:
相同点,均表示计量资料集中趋势的指标。
不同点:
表2-5.
表2-5均数,几何均数和中位数的相异点
平均数意义应用场合
均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布
几何均数平均增减倍数①等比资料;②对数正态分布资料
中位数位次居中的观①偏态资料;②分布不明资料;③分布一端或两
察值水平端出现不确定值
2.中位数与百分位数在意义上﹑计算和应用上有何区别与联系?
答:
1)意义:
中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。
百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。
多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
〔2〕计算:
中位数和百分位数均可用同一公式计算,即
Px=L+〔i/fx〕〔n·x%-ΣfL〕
可根据研究目的选择不同的百分位数代入公式进行计算分析。
〔3〕应用:
中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考
值范围确实定。
中位数常和其它分位数结合起来描述分布的特征,在实际工作中
更为常用。
百分位数还可以用来描述变量值的离散趋势〔四分位数间距〕。
3.同一资料的标准差是否一定小于均数?
答:
不一定。
同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?
〔1〕样本含量的大小,样本含量越大,标准差越稳定。
〔2〕分组的多少
〔3〕分布形状的影响,偏态分布的标准差较近似正态分布大
〔4〕随机测量误差大小的影响
〔5〕研究总体中观察值之间变异程度大小
5.正态分布﹑标准正态分布与对数正态分布在概念上和应用上有何异同?
(1)概念上:
①相同点:
正态分布、标准正态分布与对数正态分布都是变量的连续型分布。
其特征是:
分布曲线在横轴上方,略呈钟型,以均数为中心,两边对称,均数处最高,两边逐渐减小,向外延伸,不与横轴相交。
②相异点:
表示方法不同,正态分布用N〔µ,σ2〕表示,标准正态分布用N〔0,1〕表示,对数正态分布N〔μlgX,σ2lgX〕表示。
(2)应用上:
①相同点:
正态分布、对数正态分布都可以转换为标准正态分布。
②相异点:
标准正态分布是标准正态变量u的分布,标准正态曲线下的面积唯一的由u决定,给应用带来极大方便。
对医学资料呈偏态分布的数据,有的经对数变换后服从正态分布。
正态分布、对数正态分布可描述变量值的分布特征,可用于正常值范围估计和质量控制等。
正态分布是很多统计方法的理论根底。
6.医学中参考值范围的含义是什么?
确定的原那么和方法是什么?
含义:
参考值范围亦称正常值范围,它是指特定健康状况人群〔排除了有关疾病和因素对所研究指标有影响的所谓“正常人〞不同于“健康人〞概念〕的解剖、生理、生化等数据绝大多数人的波动范围。
〔2〕原那么:
①抽取有代表性的足够例数的正常人群样本,样本分布越接近总体,所得结果越可靠。
一般认为样本含量最好在100例以上,以能得到一个分布较为稳定的样本为原那么。
②对选定的正常人进行准确而统一的测定,保证测定数据可靠是确定正常值范围的前提。
③判定是否要分组〔如男女、年龄、地区等〕确定正常值范围。
④决定取双侧范围值还是单侧范围值。
⑤选择适当的百分范围
⑥确定可疑范围
⑦估计界值
〔3〕方法:
①百分位数法:
Px=L+〔i/fx〕〔n·x%-ΣfL〕
②正态分布法〔对数正态分布〕:
百分位数法用于各种分布型〔或分布不明〕资料;正态分布法用于服从或近似正态分布〔服从对数正态分布〕的资料。
7.对称分布资料在“均数±〞的范围内,也包括95%的观察值吗?
答:
不一定。
均数±1.96倍标准差是正态分布的分布规律,对称分布不一定是正态分布。
计算题:
1.某地101例30~49岁健康男子血清总胆固醇值〔mmol/L〕测定结果如下:
4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.216.515.185.774.795.125.205.104.7040743.504.694.384.896.255.324.504.633.614.444.434.254.035.854.093.354.084.795.304.973.183.975.165.105.864.795.344.244.324.776.366.384.865.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.043.912.704.604.095.965.484.404.555.383.894.604.473.644.345.186.143.244.903.05
〔1〕编制频数分布表,简述其分布特征。
①找出最大值、最小值求全距〔R〕:
全距=最大值-最小值=7.22-2.70=4.50〔mmol/L〕
②求组距:
I≈0.5〔mmol/L〕
③分组段,划记〔表1-1〕
表2-6某地101例30~49岁健康男子血清总胆固醇值划记表
组段(mmol/L)划记频数
~1
~8
~9
~23
~25
~17
~9
~6
~2
~7.51
合计101
由表2-6可知,本例频数分布中间局多,两侧逐渐减少,左右根本对称。
表2-7某地101例30~49岁健康男子血清总胆固醇值〔mmol/L〕
、s计算表
血清总胆组中值频数fXfX2累计累计频数
固醇值Xf频数(实际)
~2.7512.757.56310.0099
~3.25826.0084.50090.0891
~3.75933.75126.563180.1782
~4.252397.75415.438410.4059
~4.7525118.75564.063660.6535
~5.251789.25468.563830.8218
~5.75951.75297.563920.9109
~6.25637.50234.375980.9703
~6.75213.5091.1251000.9901
~7.57.2517.2552.5631011.0000
注:
Xu为组段上限值
〔2〕计算均数
、标准s、变异系数CV。
由上计算表1-2可见:
478.25/101=4.735〔mmol/L〕
=0.882〔mmol/L〕
CV=
100%=18.627%
〔3〕计算中位数M,并与均数X比拟,利用前表计算中位数M
M=L+〔i/f50〕〔n
50%-ΣfL〕
=4.5+〔0.5/25〕〔101
50%-41〕=4.69〔mmol/L〕
此题算术均数为4.735〔mmol/L〕,与中位数4.69〔mmol/L〕很接近,这也是资料服从正态分布的特征之一。
s的范围比拟。
P2。
5=3.0+〔0.5/8〕
〔101
2.5%-1〕=3.095〔mmol/L〕
P=6.5+〔0.5/2〕
〔101
97.5%-98〕=6.619〔mmol/L〕
S±
~6.46〔mmol/L〕
用百分位数法求得101例30~~6.619〔mmol/L〕~6.46〔mmol/L〕根本一致。
〔5〕分别考察
1S、
S、
S范围内的实际频数与理论分布是否根本一致〔表1-3〕
表2-8某地101例30~49岁健康男子血清总胆固醇值理论分布与实际分布比拟
血清总胆固醇实际分布理论分布
人数%%
~
~
~
由上表,
范围内,实际分布与理论分布略有不同,而
、
范围内,实际分布与理论分布根本一致。
〔6〕现测得一40岁男子的血清总胆固醇值为6.993〔mmol/L〕,假设按95%正常值范围估计,其血清总胆固醇值是否正常?
估计该地30~49岁健康男子中,还有百分之几的人血清总胆固醇值比他高?
~6.46〔mmol/L〕现测得一40岁男子的血清总胆固醇值为6.993〔mmol/L〕,在95%范围以外,故属于异常
u=〔X-μ〕/σ
因ф〔2.56〕=ф〔-2.56〕,查表1得ф
估计该地30~49健康男子中约有0.52%的人血清总胆固醇值比他高。
2.某地卫生防疫站,对30名麻疹易感儿童经气溶胶免疫一个月后,测得其得血凝抑
制抗体滴度资料如表2-9第〔1〕〔2〕栏。
表2-9平均滴度计算表
抗体滴度人数f滴度倒数X1lgX1flgX1
〔1〕〔2〕〔3〕〔4〕〔5〕=〔2〕×〔4〕
〔1〕试计算其平均滴度。
由表1-4得,G=lg-1〔50.5730/30〕=lg-1
该站30名麻疹易感儿童经气溶胶免疫一个月后,测得血凝抑制抗体平均滴度为
1:
48.50
表2-10平均滴度计算表
抗体滴度人数f滴度倒数X1lgX1flgX1
(1)
(2)(3)(4)(5)=
(2)
(4)
1﹕
1﹕
1﹕
1﹕
1﹕
1﹕
1﹕
〔2〕有人发现本例用抗体滴度稀释倍数和直接用滴度〔原书误为倒数〕算得对数值的标准差相同,为什么?
表2-11滴度对数值计算表
抗体滴度X2人数flgX2flgX2
1﹕
1﹕
1﹕
1﹕
1﹕
1﹕
1﹕
1〕由表1-4中数据计算标准差为:
slgx1=lg-1
2)由表1-5中数据计算标准差为:
slgx2=lg-1
直接用抗体滴度的对数lgx2与稀释倍数的对数lgx1计算标准差是相等的,因为由上表可见lgx2=lg1-lgX1=-lgx1,而lgx1与-lgx1的离散程度是相同的,所以用抗体滴度稀释倍数和直接用滴度算得对数值的标准差是相同的。
3.50例链球菌咽峡炎患者的潜伏期如表2-12,说明用均数、中位数或几何均数,
何者的代表性较好?
并作计算。
表2-1250例链球菌咽峡炎患者的潜伏期的中位数计算表
潜伏期(小时)病例数f累计频数
12~11
24~78
36~1119
48~1130
60~7
72~5
84~4
96~2
108~1202
合计50
本例目测频数分布为偏态分布,长尾拖向右侧,故为正偏态,宜用中位数及几
何均数表示其平均水平。
如上表,经计算中位数,几何均数、算术均数分别为:
M=54.55〔小时〕,G=54.08〔小时〕,
=58.56〔小时〕显然,算术均数受长潜伏期的影响使其偏大,中位数M与几何均数G接近,故描述链球菌咽峡炎患者潜伏期的集中趋势指标使用中位数M或几何均数G均可。
4.某市1974年为了解该地居民发汞的根底水平,为汞污染的环境监测积累资料,调查
了留住该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人,发汞含量
如表2-13:
表2-13238人发汞含量频数计算表
发汞值人数f组中值XfXfX²累计频数累计频率
〔μmol/kg〕
合计2381699.014743.50
(1).说明此频数分布的特征:
可见发汞值的频数分布顶峰位于第2个组段。
前4个组段的频数占总频数的81.5%,长尾拖向右侧,呈极度正偏态。
(2).计算均数和中位数M,何者较大?
为什么?
何者用语说明本资料的集中位置较适宜?
=1699/238=7.139〔μmol/kg〕
M=L+〔i/f50〕〔n
50%-ΣfL〕
=5.5+2/60(238
50%-86)=6.6〔μmol/kg〕
由计算结果得知,
其原因因为本例呈正态分布,均数计算结果受到少
数较大发汞值的影响,使得
偏向大发汞值一边.本例用中位数描述偏态资
料的集中趋势较好,它不受两端较大值和极小值的影响.
(3).选用何种指标描述其离散程度较好?
选用四分位数间距描述其离散程度较好.
(4).估计该地居民发汞值的95%参考值范围
本资料应选用单侧95%上界值,本例是正偏态分布.而且样本含量较大,
n=238,保证获得一个较为稳定的分布,故采用百分位数法计算的参考值范
围较为适宜.
P95=L+(i/f95)(n
95%-ΣfL)
=11.5+(2/16)(238
95%-212)=13.2625〔μmol/kg〕
第三章均数的抽样误差与t检验
答案
填空题:
1.标准误
3.假设检验,〔显著性检验〕
4.两总体均数不同〔越有理由说明有统计学意义〕
5.自由度大小
6.一是准确度、二是精度
7.抽样误差、样本均数、总体均数
8.总体均数估计、假设检验
9.第二类错误〔Ⅱ型错误〕β
是非题:
1.√
2.×
3.×
4.×
5.√
6.√
7.×
8.√
9.×
10.√
11.√
12.×
13.√
14.√
15.√
16.√
17.√
18.√
19.×
20.×
21.×
22.×
单项选择题:
1.A
2.E
3.D
4.E
5.E
6.E
7.D
8.A
9.D
10.D
11.D
12.B
13.E
14.D
15.D
16.E
17.B
18.C
19.C
20.D
21.C
问答题:
1.标准差和标准误有何区别和联系?
表3-6标准差与标准误的区别
标准差〔α或s〕标准误〔
〕
意义上描述一组变量值之间的离散趋势描述样本均数间的离散趋势
应用上①s越小,表示变量值围绕①
越小,表示样本均数与
均值分布越密集,说明均数总体均数越接近,说明样本
的代表性越好。
均数推断总体均数可靠性越大。
②可用
估计变量值分②可用
估计总体
布范围均数可信区间
与n的关系n越大,s越趋于稳定n越大,
越小
〔2〕联系
①二者均是表示变异度大小的统计指标。
②标准误
与标准差大小成正比,与抽样例数n的平方根成反比。
③当n一定时,同一份资料,标准差越大,标准误也越大。
2.可信区间和参考值范围有何不同?
参考值范围是指同质总体中个体变量值的分布范围,如Xs说明有95%的变量值分布在此范围内,它与标准差的大小有关,假设个体变异越大,该范围越宽,分布也就越散。
而可信区间是指在可信度为〔1-α〕时,估计总体参数可能存在的范围。
即从同一总体中随机抽样,当n一定时,每抽一次即可得一个样本均值,以
计算可信区间,如95%可信区间,类似的随机抽样进行一百次,平均有95次,即有95个可信区间包括了总体均数,有5次没有包括括总体均数,5%是小概率事件,实际发生的可能性很小,因此实际应用中就认为总体均数在求得的可信区间。
这种估计方法犯错误的可能性最大不超过5%。
可信区间与标准误大小有关,标准误越大,可信区间那么越大。
3.假设检验和区间估计有何联系?
假设检验和区间估计都属于统计推断的内容。
假设检验用以推断总体参数间是否有质的区别,并可获得样本统计量,以得到相对精确的概率值。
而可信区间用于推断总体参数的大小,它不仅可用以答复假设检验的问题,尚可比假设检验提供更多的信息。
但这并不意味着用可信区间代替假设检验,因为假设检验可得到P值,比拟精确地说明结论的概率保证,而可信区间只能告诉我们在某α水准上有无统计意义,却不能像P那样提供精确的概率。
因此,只有将二者有机地结合起来,相互补充,才是完整的分析。
4.假设检验时,一般当P<0.05时,那么拒绝H0,理论依据是什么?
假设检验时,当P<0.05,那么拒绝Ho,其理论依据是在Ho成立的条件下,
出现大于等于现有检验统计量的概率P<0.05,它是小概率事件,即在一次
抽样中得到这么小概率是事件是不大可能发生的,因而拒绝它。
由此可见,
假设检验的结论是具有概率性的,它存在犯错误的可能性小于等于0.05。
5.t检验和方差分析的应用条件有何异同?
〔1〕相同点:
在均数比拟中,t检验和方差分析均要求各样本来自正态总体;各处理
组总体方差齐且各随机样本间相互独立,尤在小样本时更需注意。
(1)不同点:
t检验仅用于两组资料的比拟,除双侧检验外,尚可
进行单侧检验,亦可计算一定可信度的可信区间,提示差异有无实际意义。
而方
差分析用于两组及两组以上均数的比拟,亦可用于两组资料的方差齐性检验。
6.怎样正确使用单侧检验和双侧检验?
根据专业知识推断两个总体是否有差异时,是甲高于乙,还是乙高于甲,两种可
能都存在时,一般选双侧;假设根据专业知识,如果甲不会低于乙,或研究者仅关心
其中一种可能时,可选用单侧。
一般来讲,双侧检验较稳妥故较多用,在预实验有
探索性质时,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出效率
高,但应慎用。
7.第一类错误与第二类错误的区别及联系何在?
了解这两类错误有何实际意义?
〔1〕假设检验中Ⅰ、Ⅱ型错误的区别。
Ⅰ型错误是拒绝了实际上成立的Ho,也称为“弃真〞错误,用α表示。
统计推断时,根据研究者的要求来确定。
Ⅱ型错误是不拒绝实际上不成立的Ho,也称为“存伪〞错误,用β表示。
它只能与特定的H1结合起来才有意义,一般难以确切估计。
〔2〕Ⅰ、Ⅱ型错误的联系。
①当抽样例数一定时,α越大,β越小;反之,α越小,β越大。
②统计推断中,Ⅰ、Ⅱ型错误均有可能发生,假设要使两者都减小,可适当增加样本含量。
③根据研究者要求,n一定时,可通过确定α水平来控制β大小。
〔3〕了解两类错误的实际意义。
①可用于样本含量的估计。
②可用来计算可信度〔1-α〕,说明统计推断可靠性的大小。
③可用于计算把握度〔1-β〕,来评价检验方法的效能等。
④有助于研究者选择适当的检验水准。
⑤可以说明统计结论的概率保证。
计算题:
1.某地抽样调查了局部成人的红细胞数和血红蛋白量,结果如表:
表3-7:
健康成人的红细胞和血红蛋白测得值及标准误与变异系数的计算
性别
例数
均数
标准差
标准值
变异系数〔%〕
标准误
红细胞数
男
360
〔×1012/L〕
女
225
血红蛋白
男
360
〔g/L〕
女
255
〔1〕说明女性的红细胞数与血红蛋白量的变异程度何者为大?
女性CVRBC=S/
××100%=6.49%
CVHB=S/
××100%=8.67%
由上计算可知该地女性血红蛋白量比红细胞数变异度大
〔2〕分别计算男﹑女两项指标的抽样误差。
见上表最后一栏,标准误计算公式
。
〔3〕试估计该地健康成年男﹑女红细胞数的均数。
健康成年男子红细