医学统计学高级统计学课后部分习题答案.docx
《医学统计学高级统计学课后部分习题答案.docx》由会员分享,可在线阅读,更多相关《医学统计学高级统计学课后部分习题答案.docx(27页珍藏版)》请在冰豆网上搜索。
医学统计学高级统计学课后部分习题答案
11-多因素实验资料的方差分析
11-3
(1)本题为4个处理组的2×2析因涉及,因分成3天进行,若将每天的实验结果设为一个区组,先进行随机区组的方差分析:
方差分析表1
变异来源
df
SS
MS
F
Sig.
总变异
11
818.369
区组间
2
3.762
1.881
.230
.801
处理组间
3
765.529
255.176
31.196
.000
误差
6
49.078
8.180
从上表可以看出,各区组间差异无统计学意义,即各天的实验结果间无差异。
(3)依据完全随机设计析因试验方法进行方差分析
方差齐性检验表
F
df1
df2
Sig.
1.429
3
8
0.304
P值大于0.05,尚不能认为方差不齐。
方差分析表2
变异来源
df
SS
MS
F
Sig.
总变异
11
818.37
试样处理方式(A)
1
716.11
716.11
108.42
0.000
试样重量(B)
1
36.40
36.40
5.51
0.047
AB
1
13.02
13.02
1.97
0.198
误差
8
52.84
6.605
结局:
可以认为高锰酸盐处理及试样重量均会对甘蓝叶核黄素浓度测定产生影响,尚不能认为高猛酸盐及试样重量的交互作用会对甘蓝叶核黄素浓度测量有影响。
11-4
假定不存在高阶交互作用,仅对A、B、C、D、E5个因素的主效应进行分析,采用正交设计的方差分析法:
正交设计的方差分析
变异来源
df
SS
MS
F
Sig.
总变异
15
3495.366
A
1
540.911
540.911
21.714
.001
B
1
1743.689
1743.689
69.998
.000
C
1
787.223
787.223
31.602
.000
D
1
82.038
82.038
3.293
.100
E
1
92.400
92.400
3.709
.083
误差
10
249.104
24.910
从上表可以看出,A、B、C三个因素的主效应有统计学意义(P<0.05),即A、B、C三个参数对高频呼吸机的通气量有影响。
11-5
随机区组的裂区设计,一级实验单位的变异来自于A因素主效应、区组变异及个体间误差,二级实验单位的变异来自于B因素的主效应、AB的交互效应以及个体内的误差,见下表。
随机区组裂区设计的方差分析
变异来源
df
SS
MS
F
Sig.
二级单位总计
19
146.1375
家兔间(一级单位总计)
9
81.013
注射药物(A)
1
63.013
63.013
47.557
.002
区组
4
12.700
3.175
2.396
.209
个体间误差
4
5.300
1.325
部位间(一级单位总计)
10
65.125
毒素浓度(B)
1
63.013
63.013
252.050
.000
A*B
1
.113
.113
.450
.521
个体内误差
8
2.000
0.25
从上表结果可以看出:
无论是低浓度毒素还是高浓度毒素所致的皮肤损伤,抗毒素注射后的皮肤受损直接均小于对照组,全身注射抗毒素对皮肤损伤有保护作用。
12-重复测量设计资料的方差分析
12-2
数据为重复测量资料,方差分析表如下:
方差分析表
变异来源
SS
df
MS
F
Sig.
时间主效应
4500.000
1
4500.000
238.095
.000
时间×处理
28.800
1
28.800
1.524
.252
个体内误差
151.200
8
18.900
处理主效应
45.000
1
45.000
1.837
.212
个体间误差
196.000
8
24.500
从上表可以看出:
(1)两种方法治疗前后中度甲亢患者心率测量结果有差别(P<0.05)
(2)不考虑时间,两种方法心率的主效应未见差别(P>0.05)
(3)测量前后与处理不存在交互作用(P>0.05),即两种方法治疗前后心率的变化幅度相同。
12-5
(1)进行球型检验
withinsubjectseffcet
Mauchly'W
approx.chi-square
df
Sig.
Epsilonb
Greenhouse-Geisser
Huynh-Feldt
lower-bound
t
.119
27.028
5
.000
.675
.847
.333
P<0.05,不满足球形检验,需进行校正
(2)重复测量资料方差分析结果
测量时间及其与药物剂型交互作用的方差分析表
source
SS
df
MS
F
Sig.
t
sphericityassumed
26560.05
3
8853.349
74.972
.000
Greenhouse-Geisser
26560.05
2.026
13107.070
74.972
.000
Huynh-Feldt
26560.05
2.541
10453.519
74.972
.000
lower-bound
26560.05
1
26560.046
74.972
.000
t*G
sphericityassumed
16614.53
3
5538.177
46.898
.000
Greenhouse-Geisser
16614.53
2.026
8199.076
46.898
.000
Huynh-Feldt
16614.53
2.541
6539.158
46.898
.000
lower-bound
16614.53
1
16614.532
46.898
.000
error(t)
sphericityassumed
4959.76
42
118.089
Greenhouse-Geisser
4959.76
28.369
174.827
Huynh-Feldt
4959.76
35.571
139.433
lower-bound
4959.76
14
354.268
新旧剂型患者血药浓度比较的方差分析表
source
SS
df
MS
F
Sig.
intercept
493771.9
1
493771.870
729.972
.000
G
59.9
1
59.916
0.089
.770
error
9470.0
14
676.425
结论:
使用不同剂型患者血药浓度没有差别;使用前后患者血药浓度存在明显差别;不同剂型使用前后血药浓度的变化幅度不同。
15-多元线性回归分析
(1)以低密度脂蛋白中的胆固醇(Y1)为应变量:
方差分析表1
变异来源
平方和
df
均方
F
P
回归
18530.408
4
4632.602
8.090
0.00025
残差
14316.258
25
572.650
总计
32846.667
29
回归参数估计及其检验结果1
变量
B
Sb
b'
t
Sig.
(常量)
-0.829
47.773
-0.017
0.986
载脂蛋白A1
0.233
0.197
0.165
1.181
0.249
载脂蛋白B
1.325
0.282
0.714
4.699
0.0001
载脂蛋白E
-0.124
2.783
-0.008
-0.045
0.965
载脂蛋白C
-2.385
0.765
-0.494
-3.119
0.005
决定系数:
R2=0.564调整的决定系数:
R2=0.494
按α=0.05检验水平,回归方程中X2和X4有统计学意义,即低密度脂蛋白中的胆固醇与载脂蛋白B及C之间存在线性关系。
以高密度脂蛋白中的胆固醇(Y2)为应变量:
方差分析表2
变异来源
平方和
df
均方
F
P
回归
4392.581
4
1098.145
22.487
<0.0001
残差
1220.886
25
48.835
总计
5613.467
29
回归参数估计及其检验结果2
变量
B
Sb
b'
t
Sig.
(常量)
-2.1323
13.9511
-0.1528
0.87975
载脂蛋白A1
0.48331
0.05764
0.82547
8.38546
0.00000
载脂蛋白B
-0.0527
0.08235
-0.0687
-0.6401
0.52794
载脂蛋白E
-0.2944
0.81278
-0.0457
-0.3622
0.72027
载脂蛋白C
-0.415
0.22331
-0.2078
-1.8583
0.07494
决定系数:
R2=0.783调整的决定系数:
R2=0.748
按α=0.05检验水平,回归方程中X1有统计学意义,即高密度脂蛋白中的胆固醇与载脂蛋白A1之间存在线性关系。
(2)自变量筛选
设定进入、剔除标准分别为α入=0.05和α出=0.10
以低密度脂蛋白中的胆固醇(Y1)为应变量,向前法纳入变量为X2、X4,向后法纳入变量为X2、X4,逐步回归法纳入变量为X2、X4,三者结果无差异;
以高密度脂蛋白中的胆固醇(Y2)为应变量,向前法纳入变量为X2、X4,向后法纳入变量为X1、X4,逐步回归法纳入变量为X1、X4,三者结果无差异;
(3)以X1-X4为自变量,Y2/Y1为应变量,使用逐步回归法分析,设定进入、剔除标准分别为α入=0.05和α出=0.10,结果如下:
方差分析表3
变异来源
平方和
df
均方
F
P
回归
0.2833527
3
0.09445
46.8465
0.0000
残差
0.0524207
26
0.00202
总计
0.3357734
29
回归参数估计及其检验结果3
变量
B
Sb
b'
t
Sig.
(常量)
0.35543
0.08847
4.01775
0.0004
载脂蛋白A1
0.00264
0.00036
0.58288
7.35716
0.0000
载脂蛋白B
-0.0036
0.00048
-0.6116
-7.5074
0.0000
载脂蛋白C
0.00333
0.00123
0.21586
2.70002
0.012
决定系数:
R2=0.844调整的决定系数:
R2=0.826
与前面的分析结果相比,用Y2/Y1作为应变量,与单独使用Y1或者Y2的回归方程决定系数及调整的决定系数更高,说明高、低密度脂蛋白中的胆固醇含量的比值,较单纯的低密度脂蛋白中胆固醇的含量或者单纯高密度脂蛋白中胆固醇的含量,对诊断动脉硬化lemme个更有意义。
(4)残差分析
由标准化残差分析图可以看出,散点分布不是十分均匀,存在先下后上的趋势,并不满足回归分析的条件,且有一个点超过了2,属于离群值。
(5)分析结果
血清低密度脂蛋白中的胆固醇含量与载脂蛋白B和C有关,与载脂蛋白B成正相关,载脂蛋白C成负相关;
高密度脂蛋白与载脂蛋白A1成正相关,载脂蛋白C成负相关;
与高、低密度脂蛋白中的胆固醇含量的比值作为综合指标衡量动脉硬化,得到的结果与载脂蛋白A1、B及C有关。
16-Logistics回归
二、
(1)各因素赋值说明
因素
变量名
赋值
性别
X1
男=0,女=1
年龄组
X2
7~=1,10~=2,13~=3,16~=4
胆固醇
X3
<5.18=0,5.18=1
甘油三酯
X4
<0.50=0,0.50=1
肥胖症
Y
有=1,无=0
将年龄组转化成哑变量
水平
X2-1
X3-1
X4-1
1
0
0
0
2
1
0
0
3
0
1
0
4
0
0
1
(2)单因素分析
参数估计及假设检验1
变量
B
S.E,
Wals
df
Sig.
Exp(B)
性别X1
-.465
.182
6.537
1
.011
.628
常量
-1.933
.113
290.502
1
.000
.145
年龄组X2
(1)
1.087
.285
14.540
1
.000
2.965
年龄组X2
(2)
.585
.310
3.559
1
.059
1.794
年龄组X2(3)
-.260
.302
.739
1
.390
.771
常量
-2.494
.245
103.432
1
.000
.083
胆固醇X3
.711
.219
10.550
1
.001
2.035
常量
-2.256
.100
511.138
1
.000
.105
甘油三酯X4
.793
.181
19.173
1
.000
2.210
常量
-2.406
.116
430.001
1
.000
.090
从上表可以看出,四个因素对于肥胖的发生都有影响。
其中,男性肥胖发生率低于女性;第二个年龄段肥胖发生率最高,而后随着年龄增加风险降低,说明性别和年龄可能对胆固醇及甘油三酯的作用产生混杂。
(3)多因素分析
1)模型1:
认为肥胖的发生只与性别和年龄组相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1
参数估计及假设检验2
变量
B
S.E,
Wals
df
Sig.
Exp(B)
性别X1
-0.455
0.185
6.069
1
0.014
0.635
年龄组X2
(1)
1.075
0.286
14.155
1
0.000
2.930
年龄组X2
(2)
0.576
0.311
3.444
1
0.063
1.780
年龄组X2(3)
-0.269
0.303
0.787
1
0.375
0.764
常量
-2.289
0.257
79.433
1
0.000
0.101
-2logL1=866.602707
2)模型2:
认为肥胖的发生与性别、年龄组及胆固醇含量相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β3X3
参数估计及假设检验3
变量
B
S.E,
Wals
df
Sig.
Exp(B)
性别X1
-0.451
0.185
5.964
1
0.015
0.637
年龄组X2
(1)
1.034
0.297
12.084
1
0.001
2.811
年龄组X2
(2)
0.556
0.313
3.154
1
0.076
1.744
年龄组X2(3)
-0.266
0.303
0.774
1
0.379
0.766
胆固醇X3
0.123
0.240
0.262
1
0.609
1.131
常量
-2.295
0.257
79.638
1
0.000
0.101
-2logL1=866.343194
对X3的回归系数进行假设检验,P>0.05,说明X3没有纳入模型的必要。
3)模型3:
认为肥胖的发生与性别、年龄组、胆固醇及甘油三酯含量相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β4X4
参数估计及假设检验3
变量
B
S.E,
Wals
df
Sig.
Exp(B)
性别X1
-0.500
0.186
7.190
1
0.007
0.607
年龄组X2
(1)
0.927
0.290
10.235
1
0.001
2.528
年龄组X2
(2)
0.454
0.314
2.088
1
0.148
1.574
年龄组X2(3)
-0.335
0.305
1.208
1
0.272
0.716
甘油三酯X4
0.703
0.187
14.081
1
0.000
2.020
常量
-2.416
0.261
85.727
1
0.000
0.089
-2logL1=852.959317
引入X4后,对其回归系数进行检验,P<0.05,说明扣除性别与年龄影响后,甘油三酯与肥胖仍存在明显关系。
对模型1、2、3的似然值进行比较,模型3<模型1,说明模型3优于模型1,使用模型3拟合效果更好。
20-判别分析
20-1
Bayes判别
(1)先验概率:
p=1/3
(2)判别函数计算
Bayes线性判别函数系数估计值1
变量
判别函数
Y1
Y2
Y3
X1
.028
.156
.086
X2
2.285
3.745
4.400
X3
.756
2.301
.390
X4
2.901
-.011
1.063
X5
2.126
1.674
-.160
X6
.055
.137
.112
X7
.078
-.134
.042
(常量)
-4.920
-12.776
-7.763
Y1=0.028X1+2.285X2+0.756X3+2.901X4+2.126X5+0.055X6+0.078X7-4.920
Y2=0.156X1+3.745X2+2.301X3-0.011X4+1.674X5+0.137X6-0.134X7-12.776
Y3=0.086X1+4.400X2+0.390X3+1.063X4-0.160X5+0.112X6+0.042X7-7.763
(3)判别效果评价:
回顾性估计误判概率8/63=12.70%
回顾性判别效果评价
原分类
判别分类
合计
1
2
3
1
29
0
3
32
2
1
10
2
13
3
1
1
16
18
合计
31
11
21
63
逐步判别
(1)确定变量筛选α、:
给定α=0.05,=0.1;
(2)筛选变量
第一步:
X1入选,F=28.028;
第二步:
X5入选,F=17.519;
第三步:
X6入选,F=15.307;
第四步:
X7入选,F=13.211;
(3)先验概率取等概率,建立Bayes判别函数
Bayes线性判别函数系数估计值2
变量
判别函数
Y1
Y2
Y3
X1
0.012
0.119
0.058
X5
3.020
1.922
0.792
X6
0.049
0.127
0.105
X7
0.111
-0.052
0.109
(常量)
-3.631
-9.784
-5.749
Y1=0.012X1+3.020X5+0.049X6+0.111X7-3.631
Y2=0.119X1+1.922X5+0.127X6-0.052X7-9.784
Y3=0.058X1+0.792X5+0.105X6+0.109X7-5.749
(4)判别效果评价回顾性估计误判概率为12/63=19.05%
原分类
判别分类
合计
1
2
3
1
27
0
5
32
2
1
10
2
13
3
2
2
14
18
合计
30
12
21
63
21-聚类分析
21-1
1使用系统聚类法(最大相似系数法)对变量进行聚类
图21-1
根据系统分类图(图21-1),若分为三类,则X6、X12、X3、X1、X10、X7、X5、X2、X8、X11为一类,X4为一类,X9为一类。
2使用系统聚类法(类平均法)对样品进行聚类
图21-2
根据系统分类图(图21-2),若分为三类,则13、16、15、29、14、23、24、21、22、12、28、10、17、11、20为一类,1、6为一类,8、9、2、3、7、4、5为一类。
3使用动态聚类法对样品进行聚类
根据SPSS结果,分成以下三类。
类别
样品编号
1
1、6、9
2
10、11、12、13、14、15、16、17、28、29、20、21、22、23、24
3
2、3、4、5、7、8
21-3
1使用系统聚类法(类平均法)对指标进行聚类
图21-3
根据系统分类图(图21-3),若分为三类,则可食率、果形指数、风味、色泽、TA为一类,维生素C含量、硬度、TSS、固酸比为一类,单果重为一类。
2使用系统聚类法(最大相似系数法)对指标进行聚类
图21-4
根据系统分类图(图21-4),若分为三类,则4为一类,54为一类,其余为一类。
22-主成分分析与因子分析
22-1主成分分析
利用SPSS进行主成分分析,得到如下结果(表22-1至表22-)
表22-1简单统计量
Cpp
icp
map
sbp
dbp
均值
0.0517
-0.0273
0.0050
-0.0060
0.0773
标准差
0.1595
0.2366
0.2182
0.1230
0.1746
表22-2相关矩阵的特征值
成份
初始特征值
贡献率
累积贡献率
1
3.169
63.385
63.385
2
.995
19.907
83.292
3
.501
10.011
93.303
4
.325
6.492
99.796
5
.010
.204
100.000
表22-3相关矩阵的特征向量
Z1
Z2
Z3
Z4
Z5
Cpp
.950
-.239
-.170
-.074
.077
icp
.248
.966
-.072
.017
.018
map
.771
.029
.635
.042
.000
sbp
.878
-.