wentworth医疗中心案例报告材料.docx
《wentworth医疗中心案例报告材料.docx》由会员分享,可在线阅读,更多相关《wentworth医疗中心案例报告材料.docx(20页珍藏版)》请在冰豆网上搜索。
wentworth医疗中心案例报告材料
《数据模型与决策》案例2
关于“Wentworth医疗中心”的案例报告
2010级5班第1组
提交日期:
2011年5月7日
Ⅰ.组员名单
Ⅱ.讨论记录
Ⅲ.案例介绍与背景分析
一、案例全文
作为对65岁和65岁以上的老人所做长期研究的一部分,位于纽约州北部地区的Wentworth医疗中心的社会学家和内科医生调查了地理位置和抑郁症之间的关系。
选择了60名相当健康的人组成了一个样本,其中20人居住在佛罗里达州,20人居住在纽约州,20人居住在北卡罗来纳州。
对随机选中的每个人给出了测量抑郁症的一个标准化检验,收集到的数据如下表所示。
较高的得分表示有较高程度的抑郁症。
这些数据可以提供给我们使用,它们被存放在本教材附带的CD上,文件名为Medical1。
研究的第二部分考虑地理位置与患有慢性病的65岁和65岁以上的老人得抑郁症之间的关系,这些慢性病包括关节炎、高血压和(或)心脏病等。
这种身体状况的人也选出60人,同样,20人居住在佛罗里达州,20人居住在纽约州,20人居住在北卡罗来纳州。
这一研究记录的抑郁症程度的数据如下表所示。
这些数据也可以提供给我们使用,它们被存放在本教材附带的CD上,文件名为Medica2。
Medical1的资料
Medical2的资料
Medical1的资料
Medical2的资料
佛罗
里达
纽约
北卡
罗来纳
佛罗
里达
纽约
北卡
罗来纳
佛罗
里达
纽约
北卡
罗来纳
佛罗
里达
纽约
北卡
罗来纳
3
8
10
13
14
10
6
6
8
12
20
18
7
11
7
12
9
12
2
8
7
9
11
17
7
9
3
17
15
15
6
12
3
12
23
19
3
7
5
17
12
18
6
8
9
15
19
15
8
8
11
20
16
12
9
6
8
16
17
13
8
7
8
21
24
14
7
8
12
15
14
14
8
8
4
16
18
17
5
5
6
13
9
11
5
4
3
14
14
8
4
7
3
10
14
12
5
13
7
13
15
14
7
7
8
11
13
13
2
10
8
17
17
16
3
8
11
17
11
11
管理报告
1、利用描述统计学方法概括说明两部分研究的数据。
关于抑郁症的得分,你的初步观测结果是什么?
2、对于两个数据集使用方差分析法,陈述每种情况下被检验的假设,你的结论是什么?
3、在适当的地方使用单个处理方法的统计推断。
你的结论是什么?
二、案例背景分析
本案例主要是研究老年人抑郁症的程度,是否受气候类型差异巨大的不同地理位置因素影响;罹患慢性病与否的因素是否也影响老年人的抑郁程度;以及两个因素的交互影响是否也造成了老年人不同的抑郁程度。
研究所涉及的佛罗里达、北卡罗来纳以及纽约州的地理位置如下图所示。
调查中的三个地区的地理位置和由地理位置所决定的气候差别非常大。
纽约州地理位置偏东北,气候冬天寒冷而夏天炎热,令人不适;佛罗里达偏南,受海洋影响,气候温和,所以成为度假和疗养的胜地;北卡罗纳处于中部,地理复杂,气候也复杂。
地理位置造成的气候,天气,日照,都给人带来了很大的影响,包括身体和精神,而对精神的影响很可能造成抑郁症,故可以推断地理位置对于健康人患抑郁症的影响是很大的。
抑郁症和其它慢性疾病之间的关系也很复杂,许多中风过后的病人会产生抑郁症状。
抑郁往往又是酿成病人第二次中风的主要因素。
抑郁症患者更容易有动脉疾病,主要是脑动脉疾病。
这一结论同样适用于心脏病、高血压及糖尿病的影响。
以下篇幅将根据实际调查的研究记录,运用描述统计学方法及方差分析方法,科学分析以上两种因素及其交互作用对老年人抑郁程度影响的显著程度。
Ⅳ.问题分析及求解
一、利用描述统计学方法概括说明两部分研究的数据
本案例中研究者为调查地理位置和抑郁症之间的关系,在65岁以上老人中选取了两个样本进行研究,分别是身体健康的老人以及患有慢性病的老人。
每个样本均有60人组成,居住地分别来自佛罗里达州,纽约州和北卡罗来纳州,不同地区的采集人数占样本总人数的三分之一。
该项调查中对随机选中的每个人给出了测量抑郁症的一个标准化检验,收集到的数据如表1所示,较高的得分表示有较高程度的抑郁症。
表1
序号
健康的老人样本
患有慢性病的老人样本
佛罗里达
纽约
北卡罗来纳
佛罗里达
纽约
北卡罗来纳
1
3
8
10
13
14
10
2
7
11
7
12
9
12
3
7
9
3
17
15
15
4
3
7
5
17
12
18
5
8
8
11
20
16
12
6
8
7
8
21
24
14
7
8
8
4
16
18
17
8
5
4
3
14
14
8
9
5
13
7
13
15
14
10
2
10
8
17
17
16
11
6
6
8
12
20
18
12
2
8
7
9
11
17
13
6
12
3
12
23
19
14
6
8
9
15
19
15
15
9
6
8
16
17
13
16
7
8
12
15
14
14
17
5
5
6
13
9
11
18
4
7
3
10
14
12
19
7
7
8
11
13
13
20
3
8
11
17
11
11
运用EXCEL软件“数据分析”功能对表1中的数据进行处理,得到如下的相关描述统计指标,从中可初步观察出抑郁症与地理位置之间的关系以及两个不同样本间的差异。
表2
指标
健康老人样本
患有慢性病的老人样本
佛罗里达
纽约
北卡罗来纳
佛罗里达
纽约
北卡罗来纳
平均
5.55
8
7.05
14.5
15.25
13.95
标准误差
0.478347
0.492042
0.634428877
0.708965
0.923024
0.658847
中位数
6
8
7.5
14.5
14.5
14
众数
7
8
8
17
14
12
标准差
2.139233
2.200478
2.837252192
3.170589
4.12789
2.946452
方差
4.576316
4.842105
8.05
10.05263
17.03947
8.681579
峰度
-1.06219
0.626432
-0.904925496
-0.3408
-0.03014
-0.59205
偏度
-0.27356
0.625687
-0.056188269
0.280721
0.525352
-0.04173
区域
7
9
9
12
15
11
最小值
2
4
3
9
9
8
最大值
9
13
12
21
24
19
求和
111
160
141
290
305
279
观测数
20
20
20
20
20
20
1、健康老人样本
由上表数据可以看出,在健康人群中位于纽约的被调查者平均分数最高,与北卡罗来纳和佛罗里达地区相比较具有更高程度的抑郁症。
同时,位于纽约的被调查者分数最大值与最小值也均高于其他两个地区,表明纽约地区被调查人群的抑郁症程度要整体高于其他两个地区,详图1。
2、患有慢性病的老人样本
与健康人群的样本情况相同,在患有慢性病的被调查者中,位于纽约的平均分数最高,且最大值与最小值也高于其他两个地区,表明位于纽约的患有慢性病的被调查者与北卡罗来纳和佛罗里达地区相比较具有更高程度的抑郁症。
与第一个样本不同的是,位于佛罗里达的患有慢性病的被调查者抑郁症程度高于北卡罗来纳,详图1。
3、两个样本比较
就整体而言,同一地区患慢性病的被调查者患抑郁症的水平明显高于健康的被调查者。
不同地区所有被调查者的平均得分情况是:
(1)佛罗里达地区平均得分9.575;
(2)纽约地区平均得分11.625;
(3)北卡罗米纳地区平均得分10.5。
无论是健康的被调查者还是已经患有慢性病的被调查者,就其地理位置而言,都是纽约地区患抑郁症的分数平均水平最高,详图2。
图1
图2
二、利用方差分析方法进一步说明两部分研究的数据
为进一步判断样本数据能否真正推断出,处于不同地理位置的总体人群(65岁以上老人)对抑郁症的影响程度是有差异的,我们借助方差分析的方法对两部分调查的结果进行深度分析。
(一)方差分析的假定及原理
作为一项观测性研究,本案例中的数据通过抽样调查得到,据此为应用方差分析的方法我们首先需要进行三个假定:
1、对每个总体,响应变量服从正态分布。
即,在本案例中,位于佛罗里达、纽约及北卡罗来纳州等三个地区65岁以上老人(包括健康和患有慢性病的群体),测量抑郁症的标准化检验分数服从正态分布;
2、响应变量的方差,记为
,对所有总体都是相同的。
即,在本案例中,位于三个地区65岁以上老人(包括健康和患有慢性病的群体),测量抑郁症的标准化检验分数方差是相同的;
3、观察值是独立的。
即,在本案例中,对于每个地区65岁以上老人(包括健康和患有慢性病的群体),其测量抑郁症的标准化检验分数独立于任何其他地区65岁以上老人的分数。
方差分析(ANOVA)的逻辑是以共同方差
的两个独立的估计量为基础。
基于方差分析的假定,我们可以利用样本均值之间的变异,建立
的一个估计:
处理间均方MSTR;另一个估计量则是基于每个样本内部数据的变异,误差均方MSE。
通过比较
的这两个估计就能够判定总体均值是否相等。
如果各样本均值
都相等,可以理解成个样本均来自于同一个总体,那么MSTR与MSE给出的
两个独立的估计量应该是接近的。
我们知道,对于同一正态总体,
的两个独立估计量之比的抽样分布服从F分布,所以能通过F检验来判定样本是否来自同一总体,有同一个均值估计μ。
在本案例中,如果佛罗里达州、纽约州以及北卡罗来纳州的抑郁症标准化检验分数总体均值是相等的,则根据表1数据分析出的MSTR\MSE抽样分布会服从一个分子自由度为2(k-1,k为3个地区),分母自由度为57(
-k,
为所有的观测值个数60)的F分布。
而如果零假设不成立,则会由于MSTR高估
从而使得MSTR\MSE的值变大,不能得出服从上述条件的F分布的话,我们将拒绝
,即佛罗里达州、纽约州以及北卡罗来纳州的抑郁症标准化检验分数总体均值不相等,得出结论认为不同地理位置对抑郁症产生的影响是不同的。
(二)健康老人样本的方差分析
1、零假设与备择假设
根据本案例进行的第一部分研究,针对65岁以上老人选取60名健康的群体作为研究样本进行抑郁症标准化分数测量。
在深入的方差分析中,我们面对的实际问题是,观察到的三个地区分数之间样本均值差异是否足够大,以致使我们能够得出结论:
对于所调查的三个地区,抑郁症的标准化检验分数总体均值是不同的。
为了用统计术语来描述这一问题,引入下列记号:
=居住在佛罗里达州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
=居住在纽约州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
=居住在北卡罗来纳州州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
由此,尽管我们不知道
的真实值,但在方差分析中我们还是试图用样本均值来检验下面的假设:
:
:
总体均值不全相等
2、EXCEL的方差分析结果
利用EXCEL软件的“单因素方差分析”功能,导入表1内“健康的老人样本”部分数据,得到下述ANOVA表
方差分析:
单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
Florida
20
111
5.55
4.576316
NewYork
20
160
8
4.842105
NorthCarolina
20
141
7.05
8.05
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
61.03333
2
30.51667
5.240886
0.00814
3.158843
组内
331.9
57
5.822807
总计
392.9333
59
3、分析结论
根据F分布表
上侧面积
0.10
0.05
0.025
0.01
F值(
)
2.39816
3.1588
3.93825
4.9981
由ANOVA表中计算得到的F=5.240886大于4.9981,因此拒绝零假设,认为总体均值不全相等,即得出结论认为对于健康的65岁以上老人群体,位于佛罗里达州、纽约州以及北卡罗来纳州等不同地理位置对抑郁症产生的影响是显著的。
(三)患有慢性病老人样本的方差分析
1、零假设与备择假设
与上述健康老人样本的方差分析步骤相同,先引入下列记号:
=居住在佛罗里达州的65岁以上患有慢性病的老人,抑郁症标准化检验分数的总体均值;
=居住在纽约州的65岁以上患有慢性病的老人,抑郁症标准化检验分数的总体均值;
=居住在北卡罗来纳州州的65岁以上患有慢性病老人,抑郁症标准化检验分数的总体均值;
同样,尽管我们不知道
的真实值,但在方差分析中还是试图用样本均值来检验下面的假设:
:
:
总体均值不全相等
2、EXCEL的方差分析结果
利用EXCEL软件的“单因素方差分析”功能,导入表1内“患有慢性病的老人样本“部分数据,得到下述ANOVA表:
方差分析:
单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
Florida
20
290
14.5
10.05263
NewYork
20
305
15.25
17.03947
NorthCarolina
20
279
13.95
8.681579
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
17.03333
2
8.516667
0.714212
0.493906
3.158843
组内
679.7
57
11.92456
总计
696.7333
59
3、分析结论
根据F分布表
上侧面积
0.10
0.05
0.025
0.01
F值(
)
2.39816
3.1588
3.93825
4.9981
由ANOVA表中计算得到的F=0.714212小于2.39816,因此不能拒绝零假设,无法得出结论认为对于患有慢性病的老人群体,位于佛罗里达州、纽约州以及北卡罗来纳州等不同地理位置对抑郁症产生的影响是有差异的。
(四)综合两个样本的方差分析比较
我们观察到案例中两个样本来自不同的人群:
健康的老人和罹患慢性病的老人。
通过双因素方差分析,可以直观地看出在不同人群和不同地理位置这两个因素是否都对抑郁症程度(分数)有显著性影响,也可以确定两个因素的交互作用是否对抑郁症程度有显著性影响。
我们将案例两项调查数据汇总,详表3。
以不同人群和不同地理位置作为两个不同的因素,将抑郁症程度的评估分数作为响应变量,运用excel程序进行双因素方差分析,分析结果如表4所示。
表3
样本分类
佛罗里达
纽约
北卡罗来纳
健康的人群样本
3
8
10
7
11
7
7
9
3
3
7
5
8
8
11
8
7
8
8
8
4
5
4
3
5
13
7
2
10
8
6
6
8
2
8
7
6
12
3
6
8
9
9
6
8
7
8
12
5
5
6
4
7
3
7
7
8
3
8
11
患有慢性病的人群样本
13
14
10
12
9
12
17
15
15
17
12
18
20
16
12
21
24
14
16
18
17
14
14
8
13
15
14
17
17
16
12
20
18
9
11
17
12
23
19
15
19
15
16
17
13
15
14
14
13
9
11
10
14
12
11
13
13
17
11
11
方差分析:
可重复双因素分析
SUMMARY
Florida
NewYork
NorthCarolina
总计
健康的
观测数
20
20
20
60
求和
111
160
141
412
平均
5.55
8
7.05
6.86666667
方差
4.5763158
4.842105263
8.05
6.65988701
罹患慢性病
观测数
20
20
20
60
求和
290
305
279
874
平均
14.5
15.25
13.95
14.5666667
方差
10.052632
17.03947368
8.681578947
11.8090395
总计
观测数
40
40
40
求和
401
465
420
平均
10.025
11.625
10.5
方差
27.666026
24.13782051
20.35897436
方差:
差异源
SS
df
MS
F
P-value
Fcrit
人群
1778.7
1
1778.7
200.446619
7.1057E-27
3.92433023
地理位置
54.016667
2
27.00833333
3.04364373
0.051552
3.07585264
交互
24.05
2
12.025
1.35513049
0.26203617
3.07585264
内部
1011.6
114
8.873684211
总计
2868.3667
119
根据上述方差分析,我们得出这样的结论,不同人群自身的健康状况会对其抑郁症水平有显著影响:
差异源——人群对应的p值接近0,拒绝μ1=μ2=μ3的原假设;不同地理位置对抑郁症水平的影响并不显著:
差异源——地理位置对应的p值=0.051552,大于我们设定的显著性水平0.05,不能得出拒绝原假设的结论。
同样的,这两个因素的交互作用对抑郁症水平也没有显著影响。
三、多重比较方法分析
在前一部分的方差分析中,针对65岁以上的健康人群,我们依据统计软件给出的相关数据拒绝了原假设,得出判断三个不同州之间抑郁症标准化检验分数总体均值不全相等,即地理位置对抑郁症程度的影响是显著的。
在这种情形下,我们可以利用Fisher的最小显著性差异(leastsignificantdifference,LSD)方法来进一步确定这三个总体均值中到底哪几个均值之间存在差异。
在本案例中三个不同地理位置调查数据的样本容量均为
=
=
=20,k=3,
1、令:
佛罗里达健康老人的抑郁症分数平均值
=5.55
纽约州健康老人的抑郁症分数平均值
北卡罗来纳州健康老人的抑郁症分数平均值
2、
=居住在佛罗里达州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
=居住在纽约州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
=居住在北卡罗来纳州州的65岁以上健康老人,抑郁症标准化检验分数的总体均值;
3、检验假设:
(1)
:
:
(2)
:
:
(3)
:
:
4、MSE=5.822807,
=
LSD=
(1)
即拒绝原假设,
,处于弗罗里达州和纽约州的不同地理位置,65岁以上健康老人抑郁症测评分数的差异是显著的;
(2)
即不能拒绝原假设,处于纽约州和北卡罗来纳州的不同地理位置,65岁以上健康老人抑郁症的测评分数没有显著差异;
(3)
,即不能拒绝原假设,处于北卡罗来纳州和弗罗里达州的不同地理位置,65岁以上健康老人抑郁症的测评分数没有显著差异。
综上所述,通过描述统计分析和方差分析等方法,我们判断出老年人自身的健康状况会对其抑郁症水平有影响。
患有慢性病的老人其抑郁症程度明显高于健康老人群体。
并且在不同的健康状况下,地理位置对抑郁症的影响也不一样。
在健康老年人中,不同的地理位置对人群抑郁症的影响程度是显著的。
在本案例中主要体现在弗罗里达州和纽约州之间的差异,纽约州抑郁症分数的总体均值明显高于弗罗里达州。
而对于本身已患有慢性病的人群,其地理位置的差异对于抑郁症的影响就不那么明显了。