可以计算各指标的贡献率,进行回代检验其符合率。
例如:
1、有健康人10名,心肌梗死病人6名,分别进行心电图检查得到三个指标X1、X2、X3。
建立这两类人的判别式,以次判别新的就诊患者是否为心肌梗死病人。
2、对正常人和白血病人进行血清学方面的研究,用高分辨核磁共振谱仪分析α峰形,以α峰的高度(X1)和峰腰(X2)的宽度作为观察指标,采集了13名白血病人和11名献血员作为健康人的血清的α峰形。
3、现有已知分类的健康人11人,硬化症患者7人,冠心病患者5人,这23人的心电图的5个指标测量数据,建立判别方程。
3、logistic回归分析
多元线性回归要求y是呈正态分布的连续型随机变量。
医学中常见这样的试验:
动物服药后是生(假设其值为1)还是死(假设其值为0),或是发病
(1)还是未发病(0)等。
当因变量取值为(0,1),自变量可能是分类变量,也可能是连续变量时,用线性回归分析的方法进行处理是不合适的,应选用Logistic回归。
Logistic回归属于概率型回归,用来分析某类事件发生的概率与自变量之间的关系。
适用于因变量为二值变量(或多分类)的情形。
基本概念:
因变量的预测值在0~1之间。
如根据冠心病病人的饮食特点、吸烟史、生活的方式、得病的类型等数据资料,建立一个logistic回归方程来预测病人的冠心病的可能性。
数学模型:
y=
式中:
是在条件
下,某事件发生的概率,
是该事件不发生的概率。
其中,
m是自变量的个数。
a是截距,bi是待估计的参数。
Logistic回归方程的曲线为S型,预测值最大值趋近1,最小值趋近0。
logistic回归方程的另一种表达形式:
通过变换可以得出P与多元变量Xi间的数学表达式:
例如:
1、某医生研究哪些指标可以判断糖尿病患者是否动脉硬化,将临床症状颈总动脉中层厚度imt0.8mm或有斑块定义为动脉硬化,记为因变量type=1,非硬化imt<0.8mm且无斑块,记为因变量type=0。
选择自变量为年龄(age)、尿白蛋白(ALB)、体重指数(BMI)、胰岛素敏感指数(ISI)、收缩压(SBP)、甘油三脂(TG)、胆固醇(CHO)、糖尿病病程(DURA)。
2、某医院为研究医院内尿路感染的主要危险因素,回顾调查了某年三个月份在住院期间实施保留导尿的200名患者,分别记录了
危险因素变量名定义
性别X1女=0,男=1
年龄(岁)X2<30=0,30~=1,50~=2,70~=3
插管前住院时间(天)X3<3=0,3~=1,10~=2,20~=3
导尿方式X4闭式=0,开放式=1
导尿期间无抗生素持续冲洗X5否=0,是=1
留置导尿时间X6<3=0,3~=1,10~=2,20~=3
感染前有无输血史X7无=0,有=1
感染前有无应用免疫抑制剂X8无=0,用=1
插插管前血浆肌酐水平X9<80=0,80~=1,170~=2
有无糖尿病X10否=0,是=1
尿路感染Y未感染=1,感染=0
分析可能在医院内尿路感染的危险因素。
4、比例风险模型-COX回归
常用统计描述和统计推断的方法有:
分位数、中数生存期、平均数、生存函数古迹、判断生存时间分布、非参数检验、寿命表法、log-rank检验(对数秩检验)等。
这些方法已经系统地应用在医学的医疗评价和预后的因素分析中。
医学临床生存资料有别于其他资料,特别是医学临床随访资料很难用一般统计方法来处理多种因素对生存时间序列的影响。
资料的特点是:
1、危险度的变化规律种类多且难以确定。
2、资料中存在失访(截尾)数据。
3、同是考虑多个变量(连续的或离散的)影响难以控制。
非参数可以解决前两个问题,参数法可以解决后两个问题。
所以实际应用中有很大的局限性。
Logistic模型中对任一个观察对象的失效处理都是相同的,无论失效发生在随访期的开始或结束,所以当分析变量与失效的关系时且需要考虑失效时间的作用时,logistic回归模型就不完全适用了。
而任一变量对失效的作用完全独立于随访期的长短,直接影响结论的可靠性和稳定性。
1972年英国生物统计学家D.R.Cox提出半参数的比例风险模型Cox回归模型(Coxregressionmodel),1975年由油料新的补充。
Cox模型是将生存时间和因素间的关系用回归方式来表示,主要解决多因素(如年龄、职业、吸烟、饮酒、病情、治疗方法等)对生存期(恢复期)的影响。
对于每一个研究的病人除去要考察的因素外,必须有生存时间变量(t)和结局变量(d)。
风险函数为:
为风险函数,又称风险率或瞬间死亡率。
为基准风险函数,是与时间有关的任意函数。
例如:
1、某省肿瘤医院调查1991-1994年间经手术治疗的66例大肠癌患者的资料,对可能影响大肠癌术后的临床病理因素进行分析,以探讨这些因素病理因素对大肠癌术后的综合影响。
危险因素变量名定义
性别Z1女=0,男=1
年龄(岁)Z2<40=1,40~59=2,60~=3
组织学分类Z3乳头状腺癌=0,管状腺癌=1
肿瘤大小(cm)Z46=0,其它=1
Dure’s分期Z5A=1,B=2,C=3,D=4
细胞增殖抗原(PCNA)Z6<55%=0,55%=1
淋巴管侵润Z7无=0,有=1
血管侵润Z8无=0,用=1
手术到观察结束Y实际天数
结束时是否死亡D生存=0,死亡=1
2、研究天花粉注射治疗绒癌疗效的试验,将16只体表接种成功的裸鼠分为4组,其中一组作为对照,其余三组分别注射天花粉、甲药和乙药,得到如下数据:
试作Cox分析。
危险因素变量名定义
带瘤天数X1天数
瘤体大小X2
天花粉治疗X3无=0,有=1
甲药治疗X4无=0,有=1
乙药治疗X5无=0,有=1
维生素X6不用=0,用=1
生存天数day实际天数
结局D生存=0,死亡=1
附例题:
文件名“sars’
建立永久数据集
libnamel'd:
';
dataa;
setl.sars3;
run;
读出数据集,选择确诊和发烧病人
dataa;
seta1;
ifgroup=2thedelete;
run;
逐步判别分析:
procstepdiscmethod=stepwisesle=0.05sls=0.05;
classgroup;
varcpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b;
quit;
将逐步判别筛选出的变量作回代:
procdiscrim;
classgroup;
varh5n1bentbinfb2bsars2bsars3bmpnbsars1b;
*varinfb2bcpnbh5n1bpiv3brsvnbbsars3b;
quit;
计算疑似与发烧病人的逐步logistic回归:
datab;
setl.sars3;
ifgroup=1thedelete;
run;
datab1;
setb;
ifgroup=2thengroupn=1;
ifgroup=3thengroupn=0;
proclogisticdescending;
modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b/selection=stepwise
clodds=plsle=0.15sls=0.15;
/*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b;
*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbb/selection=stepwiseclodds=pl
sle=0.15sls=0.15;*/
quit;
计算确诊和发烧病人的logistics回归分析:
datac;
setl.sars3;
ifgroup=3thendelete;
run;
datab1;
setc;
ifgroup=1thengroupn=1;
ifgroup=2thengroupn=0;
proclogisticdescending;
modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b/selection=stepwise
clodds=plsle=0.15sls=0.15;
*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b;
*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbb/selection=stepwiseclodds=pl
sle=0.15sls=0.15;
quit;*/
1
BACKGROUND
274.5
140.5
1
4
SAMPLE1
疑似
296
1.078324
196
1.395018
2
5
SAMPLE2
疑似
296
1.078324
209
1.487544
3
6
SAMPLE3
疑似
206
0.750455
195
1.3879
4
7
SAMPLE4
疑似
230
0.837887
223.5
1.590747
5
8
SAMPLE5
疑似
240.5
0.876138
245.5
1.747331
6
9
SAMPLE6
疑似
251
0.91439
178
1.266904
7
10
SAMPLE7
疑似
224.5
0.817851
369.5
2.629893
8
11
SAMPLE8
确诊
390
1.420765
251
1.786477
9
12
SAMPLE9
确诊
219.5
0.799636
364
2.590747
10
13
SAMPLE10
确诊
228
0.830601
293
2.085409
Logistics(B类与C类病人拟和)
ClassificationTable
Predicted
TYPE
%
Observed
0
1
Step1
TYPE
0
45
40
52.9
1
22
106
82.8
OverallPercentage
70.9
Step2
TYPE
0
49
36
57.6
1
23
105
82.0
OverallPercentage
72.3
Step3
TYPE
0
52
33
61.2
1
22
106
82.8
OverallPercentage
74.2
Step4
TYPE
0
58
27
68.2
1
19
109
85.2
OverallPercentage
78.4
aThecutvalueis.500
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
Step1
INFB2B
-3.673
.582
39.835
1
.000
.025
Constant
4.451
.665
44.859
1
.000
85.732
Step2
INFBB
-.775
.258
9.056
1
.003
.461
INFB2B
-3.733
.601
38.555
1
.000
.024
Constant
5.804
.840
47.784
1
.000
331.537
Step3
INFBB
-1.153
.308
13.998
1
.000
.316
INFB2B
-4.084
.638
40.996
1
.000
.017
PIV1B
2.589
.693
13.938
1
.000
13.315
Constant
3.239
1.041
9.686
1
.002
25.504
Step4
INFBB
-1.236
.321
14.869
1
.000
.290
INFB2B
-4.524
.698
42.031
1
.000
.011
PIV1B
2.961
.733
16.330
1
.000
19.315
RSVNAB
2.355
.716
10.812
1
.001
10.541
Constant
.974
1.245
.612
1
.434
2.648
aVariable(s)enteredonstep1:
INFB2B.
bVariable(s)enteredonstep2:
INFBB.
cVariable(s)enteredonstep3:
PIV1B.
dVariable(s)enteredonstep4:
RSVNAB.
Logistics(疑似与发烧病人拟和)包括SARS病毒
ClassificationTable
Predicted
TYPE
PercentageCorrect
Observed
0
1
Step1
TYPE
0
30
11
73.2
1
7
88
92.6
OverallPercentage
86.8
Step2
TYPE
0
36
5
87.8
1
3
92
96.8
OverallPercentage
94.1
Step3
TYPE
0
38
3
92.7
1
2
93
97.9
OverallPercentage
96.3
Step4
TYPE
0
37
4
90.2
1
4
91
95.8
OverallPercentage
94.1
Step5
TYPE
0
38
3
92.7
1
3
92
96.8
OverallPercentage
95.6
Step6
TYPE
0
40
1
97.6
1
1
94
98.9
OverallPercentage
98.5
aThecutvalueis.500
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
Step1
INFB2B
-8.810
1.529
33.179
1
.000
.000
Constant
10.449
1.746
35.812
1
.000
34524.092
Step2
H5N1B
8.792
2.241
15.387
1
.000
6582.400
INFB2B
-12.319
2.360
27.254
1
.000
.000
Constant
6.168
2.104
8.596
1
.003
477.220
Step3
H5N1B
8.121
2.415
11.307
1
.001
3364.195
INFB2B
-13.139
2.863
21.065
1
.000
.000
PIV3B
5.558
2.055
7.312
1
.007
259.262
Constant
1.774
2.559
.480
1
.488
5.893
Step4
H5N1B
9.657
2.923
10.914
1
.001
15629.817
INFAB
-5.854
2.685
4.753
1
.029
.003
INFB2B
-12.086
2.825
18.302
1
.000
.000
PIV3B
6.063
2.285
7.044
1
.008
429.842
Constant
5.142
3.422
2.259
1
.133
171.122
Step5