基于logistic回归模型对肝癌手术治疗效果的评价.docx
《基于logistic回归模型对肝癌手术治疗效果的评价.docx》由会员分享,可在线阅读,更多相关《基于logistic回归模型对肝癌手术治疗效果的评价.docx(25页珍藏版)》请在冰豆网上搜索。
基于logistic回归模型对肝癌手术治疗效果的评价
河南城建学院第三届大学生数学建模竞赛
承诺书
我仔细阅读了《河南城建学院第三届大学生数学建模竞赛参赛须知》。
我完全明白,在竞赛开始后参赛者不能以任何方式(包括电话、电子邮件、网上咨询等)与任何人研究、讨论与赛题有关的问题。
我知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我将受到严肃处理。
我的选择题号为:
B
姓名
系别
学号
联系方式
(以下内容参赛同学不需填写,由竞赛组委会统一编码)
评阅编号:
河南城建学院第三届大学生数学建模竞赛
编号专用页
评阅编号(由组委会评阅前进行编号):
评阅记录(供评阅时使用):
评
分
评
阅
人
备
注
题目:
基于Logistic回归模型对肝癌手术治疗效果的评价
摘要:
本文根据20个具有代表性的肝癌患者样本的10项指标,讨论了肝癌手术的预后影响,通过不同的模型来提高模型预测的精确度和稳定性。
通过查阅大量医学书籍,了解各项指标的意义以及在临床实验中它们对肝癌手术的影响程度,并根据医学统计学原理对各个指标的含义进行赋值,所赋的值为分类指示符,并无数值含义。
首先,利用聚类分析根据10个指标对20个样本进行聚类,发现与预后影响的结果具有很大的偏差,故10个指标均不是对预后具有决定性的指标,具有权重性。
再对10个指标对预后的影响进行聚类分析,发现x3(HbsAg),x9(肿瘤旁的微小子灶),x4(AntiHCV),x10(术后腹水),x8(肿瘤包膜)、x2(门脉癌栓),x7(肿瘤生长方式)具有相近性,即对预后的影响也许具有一致性。
其次,利用判别分析各指标与预后影响的相关性,得到非标准化判别方程并用3个样本进行回带检验,准确率为66.7%,精确度和稳定性不够高,对现实的指导意义不怎么大。
为提高精确度和稳定性,换用Logistic回归模型利用具有代表性的肝癌患者样本的10项指标建立回归方程,得到:
无预后影响的准确率为90.9%,有预后影响的准确率为88.9%,总计百分比为90%,根据统计学原理,若预测率大于50%,预测的结果是良好的、较为准确的。
至此,准确率比用判别分析提高了23.3%,所以用Logistic回归模型对预后影响进行判断是有效的。
关键词:
聚类分析,判别分析,Logistic回归分析,肝癌预后影响,SPSS
1问题重述
肝癌手术治疗效果评价
肝癌是我国第二常见的癌症,很多人在发现肝癌时就已经是肝癌中晚期了,而肝癌
手术治疗是中晚期肝癌的首选疗法。
选取某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,经过数据预处理,
选取其中20个有代表性的样本,选取对预后影响的l0个指标如附件1-预处理后样本数据,各指标项说明见附件2-各指标项说明。
请以预后影响作为评价标准,建立数学模型,对手术的治疗效果进行预测,为病人
是否选择手术治疗提供建议。
2模型假设
(1)在理想情况下,认为20个样本具有很强的代表性,即包含了不同重要指标所对应的预后影响。
(2)不考虑各个样本之间的个体差异,即大致的身体健康情况相同,身体恢复能力也相同。
(3)不考虑各个样本在术后的主观意志和客观条件如手术医师、病房条件、药物使用等的影响。
(4)不考虑其他变量指标对预后的影响,不考虑其他变量指标对10个指标的交互影响。
3符号说明
表1符号含义
符号
含义
Gn
第n类样本(n∈[1,2],n∈N*)
xi
第i个指标(i∈[1,10],i∈N*)
dij
第i个指标xi与第j个指标xj的欧式距离
Ci
线性判别函数的系数
Pi
预后影响的概率
β0
与指标xi无关的常数项
βi
指标xi对P的贡献量
OR
指标优势比
4数据预处理
4.1医学数据意义
翻阅大量医学专业书籍[1]、[2],可知相关变量指标的含义,如表2所示。
表2变量指标的含义
变量
指标
变量指标含义
D
预后影响
预测疾病的可能病程和结局。
X1
食道静脉曲张
曲张由于肝脏主要的血供来源之一的门静脉系统压力过高,导致它的功能异常,原本应该汇入这个系统而回流至心脏的静脉血液无法流入,淤积在管腔里就使静脉异常的扩张而且不能回缩至正常。
X2
门脉癌栓
肝癌门静脉栓的形成是影响肝癌预后的重要因素,临床发生率高达60%-90%。
X3
HbsAg
HbsAg(乙肝表面抗原):
乙型肝炎表面抗原阳性,表示体内已感染乙肝病毒。
X4
AntiHCV
Anti-HCV(丙型肝炎病毒抗体):
丙型肝炎病毒抗体IgG阳性表明已有HCV感染。
X5
肿瘤部位
肿瘤生长的地方
X6
肿瘤大小
直径<3cm(small)、3~5cm(middle)、5~10cm(big)、>10cm(verybig)
X7
肿瘤生长方式
膨胀性生长:
手术容易摘除,摘除后不易复发。
浸润性生长:
临床触诊时,肿瘤固定不活动,手术切除这种肿瘤时,为防止复发,切除范围应该比肉眼所见范围大,因为这些部位也可能有肿瘤细胞的浸润。
X8
肿瘤包膜
包膜可以视作为正常组织对肿瘤组织的反应(不一定有),为对肿瘤局部损伤刺激的修复反应,因此是由结缔组织构成的纤维膜。
X9
肿瘤旁的微小子灶
一个局限的、具有病原微生物的病变组织,就称为病灶。
X10
术后腹水
肝腹水一般来说都是由肝硬化疾病转化而来的,它是肝硬化病症最显著的并发症之一,它的出现代表着肝功能进入失代偿期。
4.2数据的初步分析
4.2.1数据的初步统计
利用Excel对选取的20个有代表性的样本及其各样本对预后影响的l0个指标总表进行析:
20个样本中有“预后影响”的有9例,无“预后影响”的有11例,所有样本详情的统计情况如表3所示。
表3样本详情统计
指标名称
指标取值
有术后影响样本数
无术后影响样本数
食道静脉曲张
无
2
5
轻度
3
1
中度
2
4
重度
2
1
门脉癌栓
无
3
3
分支
3
4
主干
3
4
HbsAg
阴性
4
8
阳性
5
3
AntiHCV
阴性
5
4
阳性
4
7
肿瘤部位
左肝
2
0
右肝
5
9
全肝
2
2
肿瘤大小
<3cm
3
1
3~5cm
2
4
5~10cm
2
2
>10cm
2
4
肿瘤生长方式
膨胀
5
5
侵润
4
6
肿瘤包膜
无
4
2
子灶突破包膜
4
3
无
1
6
肿瘤旁的微小子灶
无
7
5
有
2
6
术后腹水
无
2
4
少
4
4
多
3
3
4.2.2数据剔除
根据现代医学统计方法理论[3],所有样本量的各项指标从轻到重的分布应呈现正态
分布图像[4],20个样本数据的10个指标的分布详情均比较准确。
依据统计学原理,20个样本数据具有一定的代表性,故不剔除任何数据。
4.3对指标的赋值
为方便建模时对各样本、各指标进行分析,故将各个指标的情况进行赋值,按照综
合评价中指标值标准化方法的探讨[5],在模型中各项指标均为分类数据,为将分类数据应用于数值模型中,因此对分类数据进行数值赋值。
分别用数集{0,1,2,3}中的数字来表示各指标下的不同等级数据,且数集{0,1,2,3}只是分类指示符,并无真正的数值含义,具体赋值情况如表4所示。
表4对变量的赋值
变量名
变量标示
变量说明
X1
食道静脉曲张
无(no)0、轻(light)1、中(mid)2、重(serious)3
X2
门脉癌栓
无(no)0、分支(branch)1、主干(trunk)2
X3
HbsAg
阴性(negative)0、阳性(positive)1
X4
AntiHCV
阴性(negative)0、阳性(positive)1
X5
肿瘤部位
左肝(leftliver)1、右肝(rightliver)2、全肝(allliver)3
X6
肿瘤大小
直径<3cm(small)1、3~5cm(middle)2、5~10cm(big)3、>10cm(verybig)4
X7
肿瘤生长方式
膨胀(dilation)1、浸润(infiltration)2
X8
肿瘤包膜
完整(integrate)1、子灶突破包膜(part)2、无(no)0
X9
肿瘤旁微小子灶
无(no)0、有(have)1
X10
术后腹水
无(no)0、少(less)1、多(much)2
Decision
预后影响
有(Y)1、无(N)0
5模型建立与优化求解
5.1基于聚类分析分析源数据
5.1.1聚类分析的基本方法
聚类分析(ClusterAnalysis)[3]、[4]是研究分类问题的多元统计方法之一,就是根据研究对象的特征把性质相近的个体归为一类,按样本的“接近程度”使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的差异性的多元分析技术的总称。
5.1.2聚类分析的大致过程
系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的变量(或样品)首先聚合为一类,而把另一些相似程度较小的变量(或样品)聚合为另一类,直到所有的变量(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。
其相似程度由距离或者相似系数定义。
进行类别合并的准则是使得类间差异最大,而类内差异最小。
记第
个样本
与第
个样本
之间的距离
,其中
满足一下条件:
非负性:
对称性:
三角不等式:
用欧氏距离:
通过计算可以得到一对称矩阵:
越小,说明
和
越接近。
5.1.3对20个样本的系统聚类分析结果
考虑“预后影响”的各项指标,对20个样本进行系统聚类,利用SPSS系统聚类分析,把原来20个样本按照“接近程度”进行样品聚类分析。
通过SPSS的分析,得到系统聚类分析如图1所示。
图120个样本的系统聚类法树形图
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
9 ─┬─┐
17 ─┘ ├─────┐
1 ───┘ ├───────┐
16 ─────────┘ ├───────────┐
11 ───────────┬───┐ │ │
15 ───────────┘ ├─┘ ├───────┐
6 ───────────────┘ │ │
5 ───────────────┬───────┐ │ │
18 ───────────────┘ ├─────┘ ├───────────┐
7 ───────────┬───┐ │ │ │
12 ───────────┘ ├───────┘ │ │
2 ───────────────┘ │ │
3 ─────────────────────────────────────┘ │
10 ───┬─────┐ │
20 ───┘ ├─────┐ │
13 ─────────┘ ├─────────┐ │
4 ───────────────┘ ├───────────────────────┘
14 ───────────┬───────┐ │
19 ───────────┘ ├─────┘
8 ───────────────────┘
从树形图1可以清楚的看到,若将20个样品分为两类,则样品9、17、1、16、11、15、6、5、18、7、12、2、3分为一类,记为A类;样品10、20、13、4、14、19、8分为另一类,记为B类。
则A类:
9、17、1、16、11、15、6、5、18、7、12、2、3
有预后影响的样本:
1、3、6、7、12、15、18
无预后影响的样本:
2、5、8、11、16、17
B类:
10、20、13、4、14、19、8
有预后影响的样本:
4、20
无预后影响的样本:
9、10、13、14、19
按照已知数据所示,应分成两大类,一类为“有预后影响”,另一类为“无预后影响”,但充分按照10个指标的数据来进行分类,所得类别含有的样本与预想的类别含有的样本具有显著的差异。
故10个指标并不都是重要指标,是具有权重性的,即需要对指标进行筛选,得到各个指标的权重系数,建立合理的线性回归方程。
5.1.4对10个指标的系统聚类分析结果
考虑“预后影响”的各项指标,对10个指标进行分类,利用SPSS系统聚类分析的
方法,把原来10个指标按照“接近程度”进行样品聚类分析。
通过SPSS的分析,得到系统聚类分析如图2所示。
图210个指标的系统聚类分析图
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
3 ─┬─┐
9 ─┘ ├───────┐
4 ───┘ ├───┐
10 ───────────┘ ├─┐
8 ───────────────┘ ├───┐
2 ───────┬─────────┘ ├───────────────────────────┐
7 ───────┘ │ │
1 ─────────────────────┘ │
5 ─────────────────┬───────────────────────────────┘
6 ─────────────────┘
聚类分析中类别数目的确定,一方面要按照聚类图的密集程度做划分,另一方面还
要考虑实际情况的需求来决定最后的分类情况:
根据图2系统聚类分析图的分类情况,将10个指标分成5类:
A类:
x3(HbsAg),x9(肿瘤旁的微小子灶),x4(AntiHCV),x10(术后腹水),x8
(肿瘤包膜);
B类:
x2(门脉癌栓),x7(肿瘤生长方式);
C类:
x1(食道静脉曲张);
D类:
x5(肿瘤部位);
E类:
x6(肿瘤大小)。
从图2的信息可知知道,A类具有5项指标,B类具有2项指标,C类、D类、E
类均只含有1项指标,指标具有相近性,说明A类和B类的指标可能对预后结果的影响具有一致性。
5.2基于判别分析求判别函数
判别分析[3]、[4]是根据已知类别(两类以上)的事物的性质(表明观察量特征的变量值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断并将之归入已知的类别的分析方法。
是运用计算机进行运动员挑选、动植物分类和疾病诊断的主要统计学基础。
5.2.1判别分析的基本方法
在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据所划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。
任何一种判别总是存在误判的,一个好的判别法应该是误判的概率尽可能的小。
常用的判别方法有如下:
计算误判率、用已建立判别函数的样品进行回带、建立判断函数并判断。
两个总体的距离判别:
设有协方差矩阵
相等的两个总体
和
,其均值分别是
和
,对于一个新的样品
,要判断它来自哪个总体。
一般的想法是计算新样品
到两个总体的马氏距离
和
,并按照如下的判别规则进行判断
,
如果
,
如果
这个判别规则的等价描述为:
求新样品
到的
距离与到
的距离之差,如果其值为正,
属于
;否则属于
。
借助方差分析的思想构造一个判别函数:
5.2.2对样本的选择
用Excel表格中的“rand()函数”随机选择17个样本进行判别函数的建立,用剩余的3个样本进行回带判断。
表5对样本的随机排序
样品号
随机序列
20
0.892397
8
0.823628
7
0.535523
18
0.690737
3
0.328389
10
0.593089
12
0.184679
4
0.632667
2
0.335216
9
0.903682
19
0.514618
17
0.038178
16
0.252134
15
0.272905
5
0.646205
6
0.903531
13
0.039526
1
0.462211
14
0.658924
11
0.833521
由表5知,假设用前17个样本{2、3、4、5、6、7、8、9、10、12、13、15、16、17、19、19、20}进行判别函数的建立,用剩余的3个样本{1、11、14}进行回带判断。
17个样本中“有预后影响”的有8例,7个样本中“无预后影响”的有9例。
5.2.3判别分析的大致过程
将随机抽取的17个样本分为两类:
{有预后影响:
3、4、6、7、12、15、18、20}
{无预后影响:
2、5、8、9、10、13、16、17、19}
用
、
建立函数关系得:
即:
有
希望对来自不同两个总体的两个平均值
,
相差愈大愈好,取判别临界值为:
若
,判别准则可表示为:
若
,判别准则可表示为:
5.2.4由SPSS得出非标准化判别方程
在不进行指标筛选的情况下,得到非标准化线性方程,其系数如表6所示。
表6非标准化线性方程系数
CanonicalDiscriminantFunctionCoefficients
Function
1
X1
-.626
X2
1.086
X3
-2.430
X4
.024
X5
-.479
X6
.314
X7
-1.163
X8
.559
X9
3.687
X10
-.238
(Constant)
1.071
有表可知,费希尔判别函数为:
5.2.5回带数据检验判别方程
组重心处的费希尔判别函数值
表7组重心处的费希尔判别函数值
FunctionsatGroupCentroids
Group
Function
1
1
-1.023
2
.909
由表知,无预后影响的组重心点为0.909,有预后影响的组重心点为-1.023,实际上为各类别重心在空间中的坐标位置。
这样只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以知道它们的分类了。
将前面剩余的3个样本{1、11、14}的10项指标数据进行回带进行检验,求出判别分,比较此判别分分别距各重心的距离,距离哪个近就属于哪一类。
表8判别结果
样本
原数据
判别分
组重心函数值
判别分到各重心的距离
判别结果
准确与否
1
1
0.292
-1.023
1.315
0
不准确
.909
0.617
11
0
3.031
-1.023
4.054
0
准确
.909
2.122
14
0
3.896
-1.023
4.919
0
准确
.909
2.987
将数据回代的判别结果显示准确率为66.7%,具有一定的可参考性,但是准确率依然不高,原因在于某些指标变量在进行相关度计算时,具有两者具有较强的共线性,指标变量过多是干扰判别预测的主要因素,故需进行模型改进。
5.3基于Logistic模型对预后进行预测
Logistic回归模型[5]、[6]是一种概率型非线性模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。
基本原理:
用一组观察数据拟合Logistic模型揭示若干个自变量x与一个因变量y取值的关系,反映y对x的依存关系。
5.3.1Logistic模型的基本方法
Logistic回归模型适合于病例中对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。
可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
5.3.2Logistic回归模型的大致过程
将有预后影响的概率记为P,它与自变量x1、x2、x3、x4、x5、x6、x7、x8、x9、x10
之间的Logistic回归模型为:
,可知,无预后影响的概率为:
(