执业医师卫生统计学讲义0801文档格式.docx

上传人:b****5 文档编号:18620606 上传时间:2022-12-29 格式:DOCX 页数:16 大小:159.92KB
下载 相关 举报
执业医师卫生统计学讲义0801文档格式.docx_第1页
第1页 / 共16页
执业医师卫生统计学讲义0801文档格式.docx_第2页
第2页 / 共16页
执业医师卫生统计学讲义0801文档格式.docx_第3页
第3页 / 共16页
执业医师卫生统计学讲义0801文档格式.docx_第4页
第4页 / 共16页
执业医师卫生统计学讲义0801文档格式.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

执业医师卫生统计学讲义0801文档格式.docx

《执业医师卫生统计学讲义0801文档格式.docx》由会员分享,可在线阅读,更多相关《执业医师卫生统计学讲义0801文档格式.docx(16页珍藏版)》请在冰豆网上搜索。

执业医师卫生统计学讲义0801文档格式.docx

18

19

20

81.3

85.6

85.9

87.8

79.O

82.5

95.2

96.1

94.4

90.6

93.5

103.8

97.5

98.3

99.7

87.2

84.1

88.O

101.0

88.3

69.8

61.2

80.3

75.5

75.7

85.4

102.5

99.6

97.8

100.9

108.2

129.0

110.4

123.3

105.5

83.1

72.0

100.0

105.0

127.7

  1.腹腔内脂肪面积有岁腰围增加而增大的趋势,各散点呈直线趋势,但并非在一条直线上

  2.根据原始数据拟合的直线方程与数理上二元一次方程有区别。

  一、直线回归

  

(一)直线回归和直线回归方程的建立

  研究两个连续型变量之间数量上的线性依存关系的方法称为直线回归,它通过拟合直线回归方程来描述两变量间的关系。

  直线回归方程记为:

=a+bx

  a和b是决定直线的两个系数

  a为回归直线的截距,也称常数项,即x=0时y的平均估计值(x=0时,

的值)

  b为回归直线的斜率,也称样本回归系数。

(β为总体回归系数),其统计学意义是x每增加(减)一个单位,y平均改变b个单位。

  根据最小二乘法原理,可推导出a和b的计算公式。

最小二乘法原理即保证各实测点距回归直线纵向距离平方和

最小,按该原理推导出的公式如下:

  式中:

分别为x、y的均数;

  lxx、lyy分别为x和y的离均差平方和,

  lxy为x和y的离均差积和。

  【习题】对直线回归方程

=-5.024+1.635x,下列说法错误的是

  A.所有实测点都应在回归直线上

  B.所绘回归直线过点(

  C.回归直线在y轴上的截距为-5.024

  D.X每增加一个单位,y平均增加1.635个单位

  E.用此方程进行预测时,x只能在其实测值范围内取值

 

『正确答案』A

『答案解析』直线回归描述自变量和因变量之间非严格对应的函数关系,所有实测点呈线性趋势,并非在一条直线上。

(A错)

试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。

  以上例题说明直线回归方程的建立步骤:

  1.由上例数据绘制两变量的散点图,发现二者有直线趋势,可以进行直线回归分析。

  2.计算

、lxx、lyy、lxy

  3.根据以上公式计算回归系数b和截距a

  4.列出直线回归方程:

  在x的实测值范围内,任取相距较远且易读数的两个x值80和90,代入方程得到相应的值分别为72.5、93.6,连接两点(80,72.5)、(90,93.6),即可绘制回归直线。

  【习题】最小二乘原理是指各实测点距回归直线的

  A.垂直距离相等

  B.垂直距离的和最小

  C.垂直距离的平方和最小

  D.纵向距离之和最小

  E.纵向距离的平方和最小

『正确答案』E

『答案解析』在直线回归分析中,按最小二乘法原理,推导出回归系数的计算公式,从而建立回归方程。

最小二乘法原理即各实测点距回归直线纵向距离平方和Σ(y-

)2最小。

  

(二)直线回归系数的含义及其假设检验

  回归系数b的含义是自变量x改变一个单位时,应变量y平均改变b个单位。

  回归系数b>

0时,表示回归直线从左下方走向右上方,即y随x增大而增大;

b<

0时,表示回归直线从左上方走向右下方,即y随x增大而减小;

b=0时,表示回归直线平行于x轴,即y与x无线性依存关系。

  对于上例题回归系数b=2.1105,表示男性腰围每增加1cm,腹腔内脂肪面积平均增加2.1105cm2。

  无论y对x的回归关系是否成立,总可拟合出直线回归方程,但方程并不一定有统计学意义。

  回归系数b为样本回归系数,假设在总体回归系数β=0的总体中抽样,得出的样本b不一定为0,因此需要作总体回归系数β是否为0的假设检验。

  t检验

Sb为样本回归系数b的标准误,

  Sy,x为回归的剩余标准差,反映扣除了x的影响后y的变异。

  例在上例题中建立的直线回归方程

是否成立?

  

(1)建立检验假设,确定检验水准

  H0:

β=0,即腹腔内脂肪面积与腰围之间无直线回归关系

  H1:

β≠0,即腹腔内脂肪面积与腰围之间有直线回归关系

  α=0.05

  

(2)计算检验统计量,确定P值,做出推断

  由v=n-2=18,查t界值表(见附表),得P<

0.001,按水准,拒绝H0,回归方程有统计学意义,结论同上。

  可以验证,

,因此,同一资料回归系数的t检验与方差分析等价。

  总结:

直线回归分析的基本步骤

  1.绘制散点图

  2.计算回归系数b与截距a

  3.对回归系数b进行假设检验

  4.列出回归方程

  5.回归直线的绘制

  (三)直线回归的应用及应注意的问题

  1.应用

  

(1)直线回归方程可用来描述两定量变量间数量依存变化的关系:

  经回归系数的假设检验,认为两变量有直线回归关系时,可用直线回归方程来描述两变量间数量依存变化的关系。

  

(2)利用回归方程进行预测预报:

  这是回归方程的重要应用之一。

预测预报即把预报因子(自变量x)代入回归方程对预报量(应变量y)进行估计。

  (3)利用回归方程进行统计控制:

  统计控制是利用回归方程进行逆估计。

如要求应变量y在一定范围内波动,可以通过控制自变量x的取值来实现。

  2.应注意的问题

  

(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识,如研究小树增高与儿童增长的数量依存关系无实际意义。

  

(2)直线回归分析前应绘制散点图。

  只有散点图呈现直线趋势时,两变量呈直线回归关系的假定才有依据。

散点图还能提示资料有无异常点,即对应残差绝对值特大的观测数据。

异常点的存在往往对回归方程中系数的估计产生较大影响,因此,需对异常点进行复查,若是由于在测定、记录或计算机录入等环节人为错误所致,应予修正或删除。

  (3)两变量间存在直线关系时,不一定表明彼此之间就存在因果关系;

有可能是依存关系,或仅仅是表面上的伴随关系。

  (4)直线回归分析的应用条件为:

  应变量与自变量关系为线性

  误差服从正态分布

  各观测值独立等

  对这些假设条件的检查较为简单有效的方法是考察回归模型的残差图。

  (5)直线回归分析中反映自变量对应变量数量上影响大小的统计量是回归系数b,而不是假设检验的P值。

  (6)应用直线回归方程进行预测时,自变量一般不应超出样本实测值的取值范围。

  【习题】下列关于直线回归的说法,错误的是

  A.回归分析前应绘制散点图

  B.回归方程可用于描述两连续定量变量间数量依存变化的关系

  C.对回归系数假设检验的P值反映了自变量对应变量数量上的影响大小

  D.直线回归用于预测时,自变量一般不应超出样本实测值范围

  E.满足各观测值独立、应变量与自变量关系为线性、误差服从正态分布的资料才能用于回归分析

『正确答案』C

『答案解析』反映自变量对应变量数量上影响大小的统计量是回归系数b,而不是P值。

  二、直线相关

  

(一)直线相关系数的含义与计算

  直线相关是指两个随机变量之间呈直线趋势的关系。

相关系数用于描述具有直线关系的两变量x,y间的相互关系,也称Pearson积矩相关系数,说明具有直线关系的两变量间的相关方向与密切程度。

样本相关系数用r表示,计算式为:

  r没有单位,取值范围为-1≤r≤+1。

  两变量相关的方向用r的正负号表示。

  r>

0表示正相关(相爱);

  r<

0表示负相关(相杀)。

  ︱r︱=1表示完全相关,r=0表示无直线相关关系,称零相关(路人)。

  相关系数r的绝对值大小表示相关的密切程度:

︱r︱越接近1,表示两变量间相关关系密切程度越高。

  例根据上题例资料,试估计男性腰围和腹腔内脂肪面积的相关系数r。

  本例lxx=950.778,lyy=7293.650,lxy=2006.649,代入公式:

  

(二)直线相关系数的假设检验

  假定从总体相关系数ρ=0的总体中随机抽样,由于存在抽样误差,所得样本相关系数r不一定为零。

因此,求得样本相关系数r后,需进行总体相关系数是否为零的假设检验。

常用的方法有t检验和查表法。

Sr为样本相关系数r的标准误。

  亦可按v=n-2,查r界值表(见附表),得到P值,结论与t检验相同。

  资料中,男性腰围和腹腔内脂肪面积相关系数r的t检验步骤如下:

  1.建立检验假设,确定检验水准

ρ=O,即男性腰围和腹腔内脂肪面积无直线相关关系

ρ≠0,即男性腰围和腹腔内脂肪面积有直线相关关系

  2.计算检验统计量

  本例,n=20,r=0.762,代入公式:

  对于同一样本,既作回归分析又作相关分析tr和tb的值相同

  3.确定P值,做出推断

  查t界值表(见附表),得P<

0.001,按α=0.05水准,拒绝H0,接受H1,可认为男性腰围和腹腔内脂肪面积有直线相关关系。

  此外,以r=0.762,v=20-2=18,直接查r界值表,得P<

0.001,结论同前。

  应用直线相关应注意的问题:

  ①进行相关分析前应先绘制散点图,从散点图能直观地看出两变量间有无直线趋势并发现可能的异常点。

  ②直线相关分析的统计推断要求两个随机变量均服从正态分布,如研究大鼠某项生理指标与不同给药剂量的关系,给药剂量通常是研究者人为控制的非随机变量,不服从正态分布,则不宜做直线相关分析。

  ③出现异常点时慎用相关,若数据中存在一个明显远离主体数据的异常点,分别计算包含或不包含此点的相关系数,有可能得到两种不同结论。

  ④相关关系不一定是因果关系。

  ⑤分层资料不可盲目合并,将无相关性的两样本合并后可能造成相关的假象,或者将原本具有相关性的分层资料合并后无相关性。

  (三)直线回归与相关的区别和联系

  1.区别

  

(1)应用不同:

  直线回归:

用于说明两变量间数量依存变化的关系,描述y如何依赖于x而变化;

地主和农民

  直线相关:

用于说明两变量间的直线相关关系,此时两变量的关系是平等的。

地主和地主

  

(2)资料要求不同:

  直线回归要求应变量y是来自正态总体的随机变量,而x可以是来自正态总体的随机变量,也可以是严密控制、精确测量的变量;

  相关分析则要求x,y是来自双变量正态分布总体的随机变量。

  (3)b和r的含义不同:

b表示x每改变一个单位,y平均增(减)b个单位;

r说明具有直线关系的两个变量间相关的密切程度与相关方向。

  (4)b和r的计算公式不同:

  (5)取值范围:

-∞<

+∞;

-1≤r≤1

  (6)单位:

b有单位;

r无单位。

  2.联系

  

(1)对同一样本,若同时计算b和r,其正负号是一致的。

  

(2)对同一样本,b和r的假设检验是等价的,二者的t值相等,即tb=tr

  (3)用回归解释相关。

r的平方称为决定系数R2,

  它反映在应变量y的总变异中能用x与y的回归关系解释的比例。

R2取值在0到1之间,且无单位。

R2越接近于1,表明回归方程的效果越好。

  (4)对同一样本,b和r可以相互换算:

  【习题】对于服从双变量正态分布的资料,如果直线相关分析得出的r值越大,则经回归分析得到相应的b值

  A.越大

  B.越小

  C.比r小

  D.比r大

  E.可能较大也可能较小

『正确答案』E

『答案解析』直线相关系数r说明具有直线关系的两个变量间相关的方向与密切程度,回归系数b用来描述两变量数量依存变化关系。

对于服从双变量正态分布的同一样本,r与b的符号一致,假设检验等价。

虽然相关系数r与回归系数b的计算有一定关系,但不能由r值的大小来判断b值的大小。

  三、等级相关

  

(一)等级相关的适用范围

  等级相关用于分析两变量间相关关系,主要用于不满足直线相关条件的资料。

具体适用于:

  不服从双变量正态分布,不宜做直线相关分析的资料

  总体分布类型未知

  原始数据用等级表示的资料

  

(二)等级相关系数的假设检验

  这里主要介绍Spearman秩相关系数rs。

类似于前述直线相关系数,rs也是描述两变量间相关方向与密切程度的统计指标。

计算rs可将n对实测值xi、yi(i=1,2,3,…,n)分别由小到大编秩,然后将秩次代入公式得到。

  样本秩相关系数rs是总体秩相关系数ρs的估计值,取值范围为-1≤rs≤1。

  rs>

0表示两变量间呈正相关关系(相爱)

  rs<

0表示两变量间呈负相关关系(相杀)

  rs=0表示两变量间无相关关系或零相关(路人)

  检验rs是否来自ρs为零的总体,当n≤50时直接查rs界值表(见附表);

当n>

50时,可按下式计算t值。

  例通过抽样调查得到七个地区居民单纯性甲状腺肿患病率与当地水中的含碘量(mg/kg),结果见下页表第

(2)、(4)栏,问当地水中含碘量是否与患病率有关?

ρs=0,即当地水中含碘量与居民单纯性甲状腺肿患病率无相关关系

ρs≠0,即当地水中含碘量与居民单纯性甲状腺肿患病率有相关关系

  表当地水中含碘量与居民单纯性甲状腺肿患病率的等级相关系数计算表

编号

(1)

x含碘量

(2)

秩次pi(3)

患病率(%)y(4)

秩次qi(5)

71

16.9

81

4.4

126

2.5

154

0.8

155

1.1

178

0.6

201

0.2

合计

28

  将两变量x、y分别从小到大编秩,以pi表示xi的秩次,qi表示yi的秩次,分别见表中第(3)、(5)栏,观察值相同的取平均秩;

将pi、qi分别代入下式,即用秩次作为分析变量值,直接计算Pearson积矩相关系数。

  以n=7,rs的绝对值查rs界值表(见下页表),得0.002<

P<

0.005,按α=0.05水准,拒绝H0,接受H1,可认为当地水中含碘量与单纯性甲状腺肿患病率有负相关关系。

  rs界值表

概率P

n

单侧:

0.25

0.10

0.05

0.025

0.01

0.005

0.0025

0.001

0.0005

双侧:

0.50

0.20

0.02

0.002

 

0.600

1.000

0.500

0.810

0.900

0.371

0.057

0.829

0.886

0.943

0.321

0.571

0.714

0.786

0.893

0.929

0.964

0.310

0.524

0.643

0.738

0.833

0.881

0.905

0.952

0.976

0.267

0.483

0.700

0.783

0.867

0.917

0.933

0.248

0.455

0.564

0.678

0.745

0.794

0.830

0.878

0.903

  【习题】某省卫生防疫站对8个城市进行了肝癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下表,检验两者有无相关可选用的方法是

  A.t检验

  B.秩和检验

  C.卡方检验

  D.等级相关

  E.直线回归与相关

城市号肝癌死亡标化率(1/10万)苯并(a)芘

5.60

18.5

16.2

11.4

13.8

8.13

18.0

12.1

1.17

1.05

0.75

0.65

1.20

『正确答案』D,等级相关

『答案解析』t检验不能回答“检验两者有无相关”(A错)

  秩和检验适用于两样本中位数或多组样本中位数的比较(B错)

  计量资料不适用于卡方检验(C错)

  此资料为总体分布型未知的资料,适用等级相关

  直线相关用于双变量正态分布资料,本题的资料并不清楚是否属于双变量正态分布资料。

(E错)

  【习题】某研究者对8例30~50岁成年男子的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见下表。

欲分析舒张压与夜间最低血氧含量分级有无关系,宜采用

  B.χ2检验

  C.秩和检验

  D.直线相关

  E.等级相关

  8例成年男子的舒张压与夜间最低血氧含量分级测量值

舒张压(mmHg)

夜间最低血氧含量分级

75

80

90

95

100

110

『答案解析』夜间最低血氧含量分级通常不服从正态分布,资料不满足直线相关分析要求的“双变量正态分布”条件,不宜作直线相关分析,而宜用等级相关分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1