临床医师预防医学医学统计学方法Word文档格式.docx

资源描述

临床医师预防医学医学统计学方法Word文档格式.docx

《临床医师预防医学医学统计学方法Word文档格式.docx》由会员分享，可在线阅读，更多相关《临床医师预防医学医学统计学方法Word文档格式.docx（25页珍藏版）》请在冰豆网上搜索。

临床医师预防医学医学统计学方法Word文档格式.docx

　　（三）最难点的是什么？

　　概念和正态分布的特点与面积分布规律

　　下列不属于计量资料的是

　　A.体重（kg）

　　B.血型（A、B、O、AB型）

　　C.身高（cm）

　　D.每天吸烟量（1～5支）

　　E.白细胞（个/L）

『正确答案』B

　　一、集中趋势指标（重点）

概念

表示

适用

算术平均数（均数）

总体均数μ；

样本均数

正态或近似正态分布，例如北京男人平均体重80kg，那么在80kg人最多

几何均数

G表示

等比资料，尤其是对数正态分布计量资料。

如抗体的平均滴度，药物浓度0.1，0.01，0.001等

中位数

M表示

一组观察值，按大小顺序排列，不规律，位置居中的变量值（n为奇数）或位置居中的两个变量值的均值（n为偶数），如我们几个人吃饭食物中毒发病时间1d，2d，3d，4d，7d，那中位数是3d

百分位数

是把一组数据从小到大排列，分成100等份，各等份含1%的观察值，分割界限上的数值就是百分位数

　　习题

　　描述7岁男孩坐高的平均水平，宜用

　　A.算术均数　

　　B.几何均数

　　C.中位数　　

　　D.极差

　　E.标准差

『正确答案』A

　　某幼儿园大班11名，6岁儿童接受百白破疫苗注射后，做血清抗体测定，其抗体滴度分别是1：

20，1：

40，1：

80，1：

160，1：

320，1：

640，描述抗体滴度的集中趋势的指标应选用

　　A.标准差

　　B.极差

　　C.算术平均数

　　D.几何平均数

　　E.四分位间距

『正确答案』D

　　二、离散趋势指标

　　反映一组同质观察值的变异程度。

常用的描述变异程度的统计指标包括极差、四分位数间距、方差、标准差和变异系数。

　　说俗了就是统计的一堆数字中，相对大的数值减去小的数值得出来的结果就是离散趋势的指标，结果越大，说明离散程度越大，变异越大。

举例子：

科里20名大夫，最大的60岁，最小的21岁，离散程度就是39了。

　　附表：

离散趋势指标

备注

全距

R表示

一组资料的最大与最小值之差。

全距越大，说明资料的离散程度（变异）越大

四分位数间距

Q表示（qid）

将一组资料分为四等份，上四分位数Qu（P75）和下四分位数QL（P25）之差（中间50%观察值的极差）就是Q。

Q值越大，说明资料的离散程度越大。

用于描述偏态分布资料的离散程度。

Q＝P75－P25

方差

总体方差用σ2表示，样本方差用S2表示

方差和标准差都是说明资料的变异（离散）程度，其值越大，说明变异程度越大。

算术均数与标准差一起使用，描述正态分布资料的集中趋势和离散趋势

标准差

将方差开平方S

最常用，适用于正态分布

变异系数

CV表示

CV是将标准差转化为算术均数的倍数，以百分数表示。

常用于度量单位不同或均数相差较大的情况

　　小结

　　计量资料呈对称分布，计算集中趋势的指标最好选用

　　A.M中位数

　　B.Q四分位数间距

算术均数中的样本均数

　　D.G几何均数

　　E.S标准差

『正确答案』C

　　有8个某种传染病人，他们的潜伏期分别为：

12、11、21、8、12、5、4、13，其中位数　

　　A.12

　　B.11.5

　　C.10

　　D.8

　　E.9.5

　　思路：

从小到大排列：

4、5、8、11、12、12、13、21位于中间位置的数是：

11和12。

中位数是11.5

　　全面描述正态分布资料特征的两个指标是

　　A.均数和中位数

　　B.均数和标准差

　　C.均数和极差

　　D.中位数和方差

　　E.几何均数和标准差

　　对称：

算方差

　　偏态：

几种死

　　描述偏态分布资料特征的两个指标是

　　C.均数和四分位数间距

　　D.中位数和四分位数间距

　　两组呈正态分布的数值变量资料，但均数相差悬殊，若比较离散趋势，最好选用的指标为

　　A.全距

　　B.四分位数间距

　　C.方差

　　D.标准差

　　E.变异系数

『正确答案』E

　　三、正态分布的特点与面积分布规律

　　1.正态分布及其特点

　　“正态分布是一个中间多、两侧逐渐减少、基本对称的分布”

　　2.面积分布规律——正态分布的面积规律

　　参数：

μ总体均数；

S样本标准差；

总体标准差用σ，μ值的均数为0，σ：

1。

区间

面积（或概率）

μ±

68.27%

1.96σ

95.00%

2.58σ

99.00%

　　标准正态分布的两个参数值分别是

　　A.μ＝0，σ＝1

　　B.μ＝1，σ＝0

　　C.μ＝1，σ＝－1

　　D.μ＝－1，σ＝1

　　E.μ＝0，σ＝0

　　普查某市8岁正常男孩体重，发现95%的人体重在18.39～29.45公斤，其标准差是

　　A.2.14公斤

　　B.5.14公斤

　　C.2.82公斤

　　D.0.95公斤

　　E.无法计算

μ-1.96s～μ＋1.96s

μ－1.96s＝18.39

μ＋1.96s＝29.45

3.92s＝11.06·

s＝2.82（公斤）

　　定量资料的统计推断

　　一、均数的抽样误差

　　均数的抽样误差用标准误

　　公式

　　再介绍一个常考的小问题：

自由度ν=n-1（n为样本例数），注意这里不需要管这个自由度干什么用的，只需要大家记住这个公式即可。

　　注：

N是样本数，S是标准差

　　某医院抽样查得100名健康人血清胆固醇数值（mmol/L），资料呈正态发布。

经计算平均数为4.8000，标准差为0.7920，则标准误为

　　A.0.0792　　

　　B.0.7920

　　C.0.0079　　

　　D.0.048

　　E.7.920

　　对10名25岁以上的山区健康男子测量脉搏次数（次/分），用，检验与全国正常男子治疗进行比较，按a=0.05的检验水准，自由度为

　　A.υ=9

　　B.υ=19

　　C.υ=17

　　D.υ=20

　　E.υ=18

　　标准误的用途：

　　①衡量抽样误差大小，标准误越小，样本均数与总体均数越接近，即样本均数的可信度越高；

　　②结合标准正态分布与t分布曲线下的面积规律，估计总体均数的置信区间；

　　③用于假设检验。

　　反映均数抽样误差大小的指标

≠μ是

　　A.标准误　　

　　B.标准差

　　C.变异系数

　　D.均数

　　E.全距

即抽样均数≠总体均数

　　从一个呈正态分布的总体中随机抽样，出现的误差称为

　　A.系统误差　　

　　B.个体差异

　　C.过失误差　　

　　D.抽样误差

　　E.测量误差

　　二、总体均数可信区间及其估计方法

　　三、假设检验的基本步骤

　　①首先提出假设，即假设差异由抽样误差造成；

　　②其次，根据样本信息估计假设成立的概率P；

　　③最后，依据概率下结论，若概率较小，则拒绝假设，若概率较大，则不拒绝假设。

　　建立假设和确定检验水准：

检验假设有两种，一种是无效假设（零假设）即假设差异是由于抽样误差所致，总体参数相同。

检验水准：

α＝0.05（区分大小概率事件标准）

　　H0（无效假设）：

μ＝μ0（或μ1＝μ2）

　　——两样本总体均数相同

　　H1（备择假设）双侧μ≠μ0（或μ1≠μ2）

　　——两样本来自不同的总体

　　小结：

H0就等于，H1就不等于

　　拒绝H0就接受H1，不拒绝就不接受H1

　　稍作理解

　　已知一般无肝肾疾患的健康人群尿素氮均值为4.882（mmol/L），16名脂肪肝患者的尿素氮（mmol/L）测定值为5.74，5.75，4.26，6.24，5.36，8.68，6.47，5.24，4.13，11.8，5.57，5.61，4.37，4.59，5.18，6.96。

问：

脂肪肝患者尿素氮测定值的均数是否高于健康人？

　　1.H0（无效假设）：

脂肪肝患者的尿素氮均值与一般无肝肾疾患的健康人群尿素氮总体均值相同（μ＝μ0）

　　H1（备择假设）：

脂肪肝患者的尿素氮均值高于一般无肝肾疾患的健康人群尿素氮总体均值相同（μ＞μ0）

　　理解：

为啥出现脂肪肝和正常人相同？

因为是抽样误差导致

　　接上

　　2.计算统计量：

计算不考

　　3.确定P值：

计算不考，记住P值和α值比较，P值越小，假设不成立。

α＝0.05

　　4.做出推断结论：

当P≤α时，概率较小，则拒绝假设，按检验水准拒绝H0，接受H1；

当P>

α时，若概率较大，则不拒绝假设。

按检验水准不拒绝H0，不接受H1。

　　随机抽样调查甲、乙两地正常成年男子身高，得甲地身高的均值为175cm，乙地为179cm，经t检验得p＜α，差别有统计学意义。

其结论为

　　A.可认为两地正常成年男子平均身高相差不大

　　B.甲、乙两地正常成年男子身高均值相差较大

　　C.两地接受调查的正常成年男子平均身高不同

　　D.可认为两地正常成年男子平均身高不同

　　E.两地接受调查的正常成年男子平均身高差别较大

　　四、μ检验和t检验

Z检查（μ检验）

t检验

相同条件

计量资料；

两组均数对比

不同条件

两独立样本均数的比较（大样本资料n＞50）

两独立样本均数的比较（小样本资料n＜50）

要求

资料服从对称分布或正态分布

资料服从正态分布

两均数比较时还要求所对应的总体方差齐同

　　小t，大Z

　　那么问题是？

用这些检验方法干嘛？

　　答案是两组数据差别有统计学意义！

　　例如看耳垂血和手指血白细胞数的差别有无统计学意义。

　　那么得到的结果就是两种

　　A：

耳垂血和手指血白细胞数相等；

　　B：

耳垂血和手指血白细胞数不相等。

　　何解？

统计学的世界你不懂！

其实它是一个说一不二的世界，要么一样，要么不一样，就这么简单

　　两样本均数比较的t检验，其目的是检验

　　A.两样本均数是否相等

　　B.两样本所属的总体均数是否相等

　　C.两样本所属总体的均数相差有多大

　　D.两样本所属总体的均数为多大

　　E.两样本均数相差有多大

　　五、假设检验的两类错误及注意事项（少考，难度极大）

　　1.两类错误

第Ⅰ类错误

统计学中将拒绝了实际正确的无效假设H0，概率用α表示

第Ⅱ类错误

将接受了实际上错误的无效假设H0，概率用β表示

　　2.假设检验中的注意事项

（1）应用检验方法必须符合其适用条件：

应根据设计类型、变量类型、样本大小等选择合适的检验方法。

（2）当样本量一定时，第Ⅰ类错误的概率α变小，第Ⅱ类错误的概率β就变大★。

反之亦然。

　　（3）结论不能绝对化：

当P≤0.05时，则“拒绝H0，接受H1”，检验结果有统计学意义，习惯上称为差别有显著性。

　　六、方差分析

　　又称F检验，是通过对数据变异的分解来判断不同样本所代表的总体均数是否相同，用于两个或两个以上样本均数的比较、回归方程的假设检验等。

　　PS：

仅仅需要了解其适用范围即可，至于怎么推导，怎么计算的内容略过。

　　1.对两个或两个以上样本均数的进行比较，选择那种统计学方法？

　　2.回归方程的假设检验，选择哪种统计学方法？

　　A.F检验　B.χ2检验　C.t检验　D.Z检验　E.μ检验

　　分类资料的统计描述

　　一、率

　　1.概念：

表示在一定条件下，某现象实际发生的例数与可能发生该现象的总例数的比。

总体率以π表示，样本率以P表示。

　　2.计算公式：

　　3.意义：

用于说明某现象发生的频率或强度

　　二、构成比不能说明现象发生的频率或强度

　　某地1955年和1956年疟疾的构成

类别

1955年

1956年

发病人数

构成比（%）

恶性疟

70.1

间日疟

12.4

三日疟

17.5

合计

100.0

100

　　某年，甲，乙两人群，几种特殊部位的肿瘤新报告病例的构成比如下表甲乙两人群几种特殊部位肿瘤某年新报告病例的构成比

肿瘤部位

甲人群（%）

乙人群（%）

肺癌

15.0

7.7

乳腺癌

30.0

20.0

子宫颈癌

25.0

15.7

其他肿瘤

56.6

　　据此推论甲人群较乙人群更容易患肺癌、乳腺癌和子宫颈癌，该推论

　　A.不正确，因为未用率指标测量

　　B.不正确，因为未进行率的标化

　　C.不正确，因为未设对照组

　　D.正确

　　E.不正确，因为未区分发病率或死亡率

　　三、相对比

两个有联系的指标之比，常用倍数或百分数表示。

说明两者的对比水平。

　　城区肺癌死亡率＝19.39/10万

　　郊区肺癌死亡率＝9.99/10万

　　即市区肺癌死亡率是郊区的1.94倍。

　　A.表示某病发生严重程度

　　B.反映两个指标的相对关系

　　C.反映某病在各疾病中所占的位次

　　D.反映同种病不同时间动态变化情况

　　E.反映同种病不同地区的严重情况

（1）发病率：

（2）构成比：

　　（3）相对比：

『正确答案』A、C、B

　　已知甲地老年人比例大于乙地，经普查甲地冠心病死亡率为5‰，乙地冠心病死亡率为4‰，若希望比较甲、乙两地冠心病死亡率的高低，则

　　A.计算标化率后再比较

　　B.应做秩和检验

　　C.应做两个率比较的X2检验

　　D.应做率的Z检验

　　E.可用两地的死亡率直接进行比较

　　某研究组调查哈尔滨某医院门诊患者医疗费报销情况，共调查800人，报销不同比例患者的百分比见下表，问报销80%以上的患者和自费患者的相对比？

报销情况

人数

构成比

自费

261

32.6%

报销<

30%

5.5%

报销30%－50%

11%

报销51%－80%

297

37.1%

报销>

80%

110

13.8%

800

100%

　　A.42.3　　B.2.37

　　C.32.6　　D.13.8

　　E.46.4

13.8%/32.6%＝42.3

　　四、相对数应用注意事项

　　建议放弃，少考

　　分类变量资料的统计推断（略）

　　一、率的抽样误差、总体率的可信区间及其估计方法——略，没考察过

　　二、Z检验和χ2检验

　　1.Z检验样本大用

　　2.χ2检验称为卡方检验。

用于计数资料，推断2个及多个总体率（或总体构成比）之间有无差别。

例如：

统计干部、医师、工人、军人冠心病的发病率。

再比如中专、大专、本科执业医师通过率的比较。

　　某医师拟比较四组人群血型分布（A、B、AB和O型）的差别，适宜的统计分析方法为

　　A.μ检验

　　B.回归分析

　　C.秩和检验

　　D.X2检验

　　E.t检验

　　秩和检验

　　一、配对资料的符号秩和检验

　　二、两样本比较秩和检验

　　三、多样本比较秩和检验

　　概念太难，怎么办？

明确两个表格即可

　　概念：

略，难度太大，不深入

　　对9个水样分别用两种方法测定硫酸盐含量的比较

水样

A法

B法

差值d

秩次

（1）

（2）

（3）

（4）=

（2）-（3）

（5）

6.07

0.00

18.71

18.63

0.08

17.70

17.77

-0.07

-3

11.33

11.70

-0.37

-8

8.40

8.23

0.17

3.03

2.98

0.05

3.13

3.09

0.04

34.30

34.59

-0.29

-6

41.41

41.72

-0.31

-7

T+=12，T-=-24

疗疗效

A药物

B药物

合计（t1）

秩号范围

（4）

平均秩次

秩和

（6）＝

（1）（5）

（7）＝

（2）（5）

治愈

119

109

228

1～228

114.5

13625.5

12480.5

显效

229～245

237.0

2133.0

1896.0

好转

246～255

250.5

2254.5

无效

256～262

259.0

1036.0

777.0

133

129

262

——

17045.0

17408.0

　　欲比较两种药物的治疗效果是否有差别，若疗效评定为“很有效、较有效、效果一般、基本无效”，宜采用的统计分析方法是

　　A.X2检验

　　B.t检验

　　C.方差分析

　　D.回归分析

　　E.秩和检验

　　直线相关和回归

　　难度极大，0－1分/分，不深入

研究事物或现象之间有无关系、关系的方向和密切程度，以r表示（无单位），其值在－1至＋1之间，r为正，正相关，r为负，负相关。

正负取决于Lxy。

　　回归方程式Y＝bX＋α中之斜率b，称为回归系数，表示X每变动一单位，平均而言，Y将变动b单位

　　分析胎儿不同出生体重和围产儿死亡率之间是否有关，可以选用的统计方法是

　　A.t检验

　　B.F检验

　　C.X2检验

　　D.相关分析

　　两个正态双变量资料，自变量记为X，因变量记为Y，进行回归分析，回归系数为0.2，经统计学检验，P＝0.05，则

　　A.X增大一个单位，Y增大0.2个单位

　　B.X增大一个单位，Y减少0.05个单位

　　C.X增大一个单位，Y增大0.05个单位

　　D.X增大一个单位，Y减少0.2个单位

　　E.X增大一个单位，Y减少或增大0.2个单位都有可能

　　logistic回归分析

　　一、logistic回归分析基本概念

　　在医学研究中研究的二分类因变量（如患病与未患病、阳性与阴性等）或多分类因变量（如治愈、显效、好转、无效）Y与一组自变量（X1，X2，…，XP）的关系，这类多重线性回归分析方法可采用logistic回归分析。

　　患高血压的人比不患高血压的人得脑卒中的风险高多少倍？

如果让你来设计这个课题，你会怎么做？

统计方法怎样选择？

理想情况下，可以将病人除高血压以外的因素完全匹配，来得到相应的风险值，但实际临床病人情况可能更加复杂，病人的年龄、性别、其他共病情况均会对卒中风险产生影响，当考虑多个危险因素相互作用下，某病发生的概率时，就需要用到logistic回归分析。

　　二、适用条件

　　1.寻找危险因素，正如上面所说的寻找某一疾病的危险因素等。

　　2.预测，如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。

　　3.判别，实际上跟预测有些类似，也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

展开阅读全文