医学统计学高级统计学课后部分习题答案第四版孙振球主编.docx

资源描述

医学统计学高级统计学课后部分习题答案第四版孙振球主编.docx

《医学统计学高级统计学课后部分习题答案第四版孙振球主编.docx》由会员分享，可在线阅读，更多相关《医学统计学高级统计学课后部分习题答案第四版孙振球主编.docx（26页珍藏版）》请在冰豆网上搜索。

医学统计学高级统计学课后部分习题答案第四版孙振球主编.docx

医学统计学高级统计学课后部分习题答案第四版孙振球主编

11-多因素实验资料的方差分析

11-3

（1）本题为4个处理组的2×2析因涉及，因分成3天进行，若将每天的实验结果设为一个区组，先进行随机区组的方差分析:

方差分析表1

变异来源

Sig.

总变异

818.369

区组间

3.762

1.881

.230

.801

处理组间

765.529

255.176

31.196

.000

误差

49.078

8.180

从上表可以看出，各区组间差异无统计学意义，即各天的实验结果间无差异。

（3）依据完全随机设计析因试验方法进行方差分析

方差齐性检验表

df1

df2

Sig.

1.429

0.304

P值大于0.05，尚不能认为方差不齐。

方差分析表2

变异来源

Sig.

总变异

818.37

试样处理方式（A）

716.11

108.42

0.000

试样重量（B）

36.40

5.51

0.047

13.02

1.97

0.198

误差

52.84

6.605

结局：

可以认为高锰酸盐处理及试样重量均会对甘蓝叶核黄素浓度测定产生影响，尚不能认为高猛酸盐及试样重量的交互作用会对甘蓝叶核黄素浓度测量有影响。

11-4

假定不存在高阶交互作用，仅对A、B、C、D、E5个因素的主效应进行分析，采用正交设计的方差分析法：

正交设计的方差分析

变异来源

Sig.

总变异

3495.366

540.911

21.714

.001

1743.689

69.998

.000

787.223

31.602

.000

82.038

3.293

.100

92.400

3.709

.083

误差

249.104

24.910

从上表可以看出，A、B、C三个因素的主效应有统计学意义（P<0.05），即A、B、C三个参数对高频呼吸机的通气量有影响。

11-5

随机区组的裂区设计，一级实验单位的变异来自于A因素主效应、区组变异及个体间误差，二级实验单位的变异来自于B因素的主效应、AB的交互效应以及个体的误差，见下表。

随机区组裂区设计的方差分析

变异来源

Sig.

二级单位总计

146.1375

家兔间（一级单位总计）

81.013

注射药物（A）

63.013

47.557

.002

区组

12.700

3.175

2.396

.209

个体间误差

5.300

1.325

部位间（一级单位总计）

65.125

毒素浓度（B）

63.013

252.050

.000

A*B

.113

.450

.521

个体误差

2.000

0.25

从上表结果可以看出:

无论是低浓度毒素还是高浓度毒素所致的皮肤损伤，抗毒素注射后的皮肤受损直接均小于对照组，全身注射抗毒素对皮肤损伤有保护作用。

12-重复测量设计资料的方差分析

12-2

数据为重复测量资料，方差分析表如下：

方差分析表

变异来源

Sig.

时间主效应

4500.000

238.095

.000

时间×处理

28.800

1.524

.252

个体误差

151.200

18.900

处理主效应

45.000

1.837

.212

个体间误差

196.000

24.500

从上表可以看出:

（1）两种方法治疗前后中度甲亢患者心率测量结果有差别（P<0.05）

（2）不考虑时间，两种方法心率的主效应未见差别（P>0.05）

（3）测量前后与处理不存在交互作用（P>0.05），即两种方法治疗前后心率的变化幅度相同。

12-5

（1）进行球型检验

withinsubjectseffcet

Mauchly'W

approx.chi-square

Sig.

Epsilonb

Greenhouse-Geisser

Huynh-Feldt

lower-bound

.119

27.028

.000

.675

.847

.333

P<0.05，不满足球形检验，需进行校正

（2）重复测量资料方差分析结果

测量时间及其与药物剂型交互作用的方差分析表

source

Sig.

sphericityassumed

26560.05

8853.349

74.972

.000

Greenhouse-Geisser

26560.05

2.026

13107.070

74.972

.000

Huynh-Feldt

26560.05

2.541

10453.519

74.972

.000

lower-bound

26560.05

26560.046

74.972

.000

t*G

sphericityassumed

16614.53

5538.177

46.898

.000

Greenhouse-Geisser

16614.53

2.026

8199.076

46.898

.000

Huynh-Feldt

16614.53

2.541

6539.158

46.898

.000

lower-bound

16614.53

16614.532

46.898

.000

error（t）

sphericityassumed

4959.76

118.089

Greenhouse-Geisser

4959.76

28.369

174.827

Huynh-Feldt

4959.76

35.571

139.433

lower-bound

4959.76

354.268

新旧剂型患者血药浓度比较的方差分析表

source

Sig.

intercept

493771.9

493771.870

729.972

.000

59.9

59.916

0.089

.770

error

9470.0

676.425

结论：

使用不同剂型患者血药浓度没有差别；使用前后患者血药浓度存在明显差别；不同剂型使用前后血药浓度的变化幅度不同。

15-多元线性回归分析

（1）以低密度脂蛋白中的胆固醇（Y1）为应变量：

方差分析表1

变异来源

平方和

均方

回归

18530.408

4632.602

8.090

0.00025

残差

14316.258

572.650

总计

32846.667

回归参数估计及其检验结果1

变量

Sig.

（常量）

-0.829

47.773

-0.017

0.986

载脂蛋白A1

0.233

0.197

0.165

1.181

0.249

载脂蛋白B

1.325

0.282

0.714

4.699

0.0001

载脂蛋白E

-0.124

2.783

-0.008

-0.045

0.965

载脂蛋白C

-2.385

0.765

-0.494

-3.119

0.005

决定系数：

R2=0.564调整的决定系数：

R2=0.494

按α=0.05检验水平，回归方程中X2和X4有统计学意义，即低密度脂蛋白中的胆固醇与载脂蛋白B及C之间存在线性关系。

以高密度脂蛋白中的胆固醇（Y2）为应变量：

方差分析表2

变异来源

平方和

均方

回归

4392.581

1098.145

22.487

<0.0001

残差

1220.886

48.835

总计

5613.467

回归参数估计及其检验结果2

变量

Sig.

（常量）

-2.1323

13.9511

-0.1528

0.87975

载脂蛋白A1

0.48331

0.05764

0.82547

8.38546

0.00000

载脂蛋白B

-0.0527

0.08235

-0.0687

-0.6401

0.52794

载脂蛋白E

-0.2944

0.81278

-0.0457

-0.3622

0.72027

载脂蛋白C

-0.415

0.22331

-0.2078

-1.8583

0.07494

决定系数：

R2=0.783调整的决定系数：

R2=0.748

按α=0.05检验水平，回归方程中X1有统计学意义，即高密度脂蛋白中的胆固醇与载脂蛋白A1之间存在线性关系。

（2）自变量筛选

设定进入、剔除标准分别为α入=0.05和α出=0.10

以低密度脂蛋白中的胆固醇（Y1）为应变量，向前法纳入变量为X2、X4，向后法纳入变量为X2、X4，逐步回归法纳入变量为X2、X4，三者结果无差异；

以高密度脂蛋白中的胆固醇（Y2）为应变量，向前法纳入变量为X2、X4，向后法纳入变量为X1、X4，逐步回归法纳入变量为X1、X4，三者结果无差异；

（3）以X1-X4为自变量，Y2/Y1为应变量，使用逐步回归法分析，设定进入、剔除标准分别为α入=0.05和α出=0.10，结果如下：

方差分析表3

变异来源

平方和

均方

回归

0.2833527

0.09445

46.8465

0.0000

残差

0.0524207

0.00202

总计

0.3357734

回归参数估计及其检验结果3

变量

Sig.

（常量）

0.35543

0.08847

4.01775

0.0004

载脂蛋白A1

0.00264

0.00036

0.58288

7.35716

0.0000

载脂蛋白B

-0.0036

0.00048

-0.6116

-7.5074

0.0000

载脂蛋白C

0.00333

0.00123

0.21586

2.70002

0.012

决定系数：

R2=0.844调整的决定系数：

R2=0.826

与前面的分析结果相比，用Y2/Y1作为应变量，与单独使用Y1或者Y2的回归方程决定系数及调整的决定系数更高，说明高、低密度脂蛋白中的胆固醇含量的比值，较单纯的低密度脂蛋白中胆固醇的含量或者单纯高密度脂蛋白中胆固醇的含量，对诊断动脉硬化lemme个更有意义。

（4）残差分析

由标准化残差分析图可以看出，散点分布不是十分均匀，存在先下后上的趋势，并不满足回归分析的条件，且有一个点超过了2，属于离群值。

（5）分析结果

血清低密度脂蛋白中的胆固醇含量与载脂蛋白B和C有关，与载脂蛋白B成正相关，载脂蛋白C成负相关；

高密度脂蛋白与载脂蛋白A1成正相关，载脂蛋白C成负相关；

与高、低密度脂蛋白中的胆固醇含量的比值作为综合指标衡量动脉硬化，得到的结果与载脂蛋白A1、B及C有关。

16-Logistics回归

二、

（1）各因素赋值说明

因素

变量名

赋值

性别

男=0，女=1

年龄组

7~=1，10~=2，13~=3，16~=4

胆固醇

<5.18=0,5.18=1

甘油三酯

<0.50=0,0.50=1

肥胖症

有=1，无=0

将年龄组转化成哑变量

水平

X2-1

X3-1

X4-1

（2）单因素分析

参数估计及假设检验1

变量

S.E,

Wals

Sig.

Exp（B）

性别X1

-.465

.182

6.537

.011

.628

常量

-1.933

.113

290.502

.000

.145

年龄组X2

（1）

1.087

.285

14.540

.000

2.965

年龄组X2

（2）

.585

.310

3.559

.059

1.794

年龄组X2（3）

-.260

.302

.739

.390

.771

常量

-2.494

.245

103.432

.000

.083

胆固醇X3

.711

.219

10.550

.001

2.035

常量

-2.256

.100

511.138

.000

.105

甘油三酯X4

.793

.181

19.173

.000

2.210

常量

-2.406

.116

430.001

.000

.090

从上表可以看出，四个因素对于肥胖的发生都有影响。

其中，男性肥胖发生率低于女性；第二个年龄段肥胖发生率最高，而后随着年龄增加风险降低，说明性别和年龄可能对胆固醇及甘油三酯的作用产生混杂。

（3）多因素分析

1）模型1：

认为肥胖的发生只与性别和年龄组相关

logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1

参数估计及假设检验2

变量

S.E,

Wals

Sig.

Exp（B）

性别X1

-0.455

0.185

6.069

0.014

0.635

年龄组X2

（1）

1.075

0.286

14.155

0.000

2.930

年龄组X2

（2）

0.576

0.311

3.444

0.063

1.780

年龄组X2（3）

-0.269

0.303

0.787

0.375

0.764

常量

-2.289

0.257

79.433

0.000

0.101

-2logL1=866.602707

2）模型2：

认为肥胖的发生与性别、年龄组及胆固醇含量相关

logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β3X3

参数估计及假设检验3

变量

S.E,

Wals

Sig.

Exp（B）

性别X1

-0.451

0.185

5.964

0.015

0.637

年龄组X2

（1）

1.034

0.297

12.084

0.001

2.811

年龄组X2

（2）

0.556

0.313

3.154

0.076

1.744

年龄组X2（3）

-0.266

0.303

0.774

0.379

0.766

胆固醇X3

0.123

0.240

0.262

0.609

1.131

常量

-2.295

0.257

79.638

0.000

0.101

-2logL1=866.343194

对X3的回归系数进行假设检验，P>0.05，说明X3没有纳入模型的必要。

3）模型3：

认为肥胖的发生与性别、年龄组、胆固醇及甘油三酯含量相关

logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β4X4

参数估计及假设检验3

变量

S.E,

Wals

Sig.

Exp（B）

性别X1

-0.500

0.186

7.190

0.007

0.607

年龄组X2

（1）

0.927

0.290

10.235

0.001

2.528

年龄组X2

（2）

0.454

0.314

2.088

0.148

1.574

年龄组X2（3）

-0.335

0.305

1.208

0.272

0.716

甘油三酯X4

0.703

0.187

14.081

0.000

2.020

常量

-2.416

0.261

85.727

0.000

0.089

-2logL1=852.959317

引入X4后，对其回归系数进行检验，P<0.05，说明扣除性别与年龄影响后，甘油三酯与肥胖仍存在明显关系。

对模型1、2、3的似然值进行比较，模型3<模型1，说明模型3优于模型1，使用模型3拟合效果更好。

20-判别分析

20-1

Bayes判别

（1）先验概率：

p=1/3

（2）判别函数计算

Bayes线性判别函数系数估计值1

变量

判别函数

.028

.156

.086

2.285

3.745

4.400

.756

2.301

.390

2.901

-.011

1.063

2.126

1.674

-.160

.055

.137

.112

.078

-.134

.042

（常量）

-4.920

-12.776

-7.763

Y1=0.028X1+2.285X2+0.756X3+2.901X4+2.126X5+0.055X6+0.078X7-4.920

Y2=0.156X1+3.745X2+2.301X3-0.011X4+1.674X5+0.137X6-0.134X7-12.776

Y3=0.086X1+4.400X2+0.390X3+1.063X4-0.160X5+0.112X6+0.042X7-7.763

（3）判别效果评价：

回顾性估计误判概率8/63=12.70%

回顾性判别效果评价

原分类

判别分类

合计

逐步判别

（1）确定变量筛选α、:

给定α=0.05，=0.1；

（2）筛选变量

第一步：

X1入选，F=28.028；

第二步：

X5入选，F=17.519；

第三步：

X6入选，F=15.307；

第四步：

X7入选，F=13.211；

（3）先验概率取等概率，建立Bayes判别函数

Bayes线性判别函数系数估计值2

变量

判别函数

0.012

0.119

0.058

3.020

1.922

0.792

0.049

0.127

0.105

0.111

-0.052

0.109

（常量）

-3.631

-9.784

-5.749

Y1=0.012X1+3.020X5+0.049X6+0.111X7-3.631

Y2=0.119X1+1.922X5+0.127X6-0.052X7-9.784

Y3=0.058X1+0.792X5+0.105X6+0.109X7-5.749

（4）判别效果评价回顾性估计误判概率为12/63=19.05%

原分类

判别分类

合计

21-聚类分析

21-1

1使用系统聚类法（最大相似系数法）对变量进行聚类

图21-1

根据系统分类图（图21-1），若分为三类，则X6、X12、X3、X1、X10、X7、X5、X2、X8、X11为一类，X4为一类，X9为一类。

2使用系统聚类法（类平均法）对样品进行聚类

图21-2

根据系统分类图（图21-2），若分为三类，则13、16、15、29、14、23、24、21、22、12、28、10、17、11、20为一类，1、6为一类，8、9、2、3、7、4、5为一类。

3使用动态聚类法对样品进行聚类

根据SPSS结果，分成以下三类。

类别

样品编号

1、6、9

10、11、12、13、14、15、16、17、28、29、20、21、22、23、24

2、3、4、5、7、8

21-3

1使用系统聚类法（类平均法）对指标进行聚类

图21-3

根据系统分类图（图21-3），若分为三类，则可食率、果形指数、风味、色泽、TA为一类，维生素C含量、硬度、TSS、固酸比为一类，单果重为一类。

2使用系统聚类法（最大相似系数法）对指标进行聚类

图21-4

根据系统分类图（图21-4），若分为三类，则4为一类，54为一类，其余为一类。

22-主成分分析与因子分析

22-1主成分分析

利用SPSS进行主成分分析，得到如下结果（表22-1至表22-）

表22-1简单统计量

Cpp

icp

map

sbp

dbp

均值

0.0517

-0.0273

0.0050

-0.0060

0.0773

标准差

0.1595

0.2366

0.2182

0.1230

0.1746

表22-2相关矩阵的特征值

成份

初始特征值

贡献率

累积贡献率

3.169

63.385

.995

19.907

83.292

.501

10.011

93.303

.325

6.492

99.796

.010

.204

100.000

表22-3相关矩阵的特征向量

Cpp

.950

-.239

-.170

-.074

.077

icp

.248

.966

-.072

.017

.018

map

.771

.029

.635

.042

.00

展开阅读全文