肾炎诊断的数学模型(含程序).doc

资源描述

肾炎诊断的数学模型(含程序).doc

《肾炎诊断的数学模型(含程序).doc》由会员分享，可在线阅读，更多相关《肾炎诊断的数学模型(含程序).doc（31页珍藏版）》请在冰豆网上搜索。

肾炎诊断的数学模型(含程序).doc

肾炎诊断的数学模型

摘要

本题讨论的问题是关于肾炎监测指标的分析，我们首先对数据从整体上用求单项均值的方法进行了预处理，随后建立起以下三种模型。

针对问题一，我们共用了两种模型。

首先建立起BinaryLogistic回归模型，得到回归方程（见5.1.2式子），并得出该表达式的相关系数R=0.82378902。

在假设检验中利用Excel经过F检测得出检验的临界值为，该值远小于显著水平0.05，从而验证了该方法的正确性，最后用回代法得出正确率为93.33%。

我们的第二种模型是费希尔判别模型，该模型得出的正确率也为93.33%。

两种模型正确率相同，均可以作为判别属于患者或健康人的方法。

针对问题二，我们利用问题一中两种模型得出的公式将待测30组数据代入，得出结果均为：

15个为肾炎患者，15个为健康人。

（详细结果见附录三）

针对问题三，我们也建立了两种模型。

首先建立多元线性回归模型，利用Excel的6SQ软件，得出了各项元素的显著性水平。

根据显著性依次剔除了式子中的部分元素并用回代法进行了相关性检验。

最终得出结论为剔除Na、Zn、K时所得模型最优，得到回归方程（见7.1.2式子），并求出回归系数R=0.809870029，标准误差为0.306346745，回代后准确率为93.33%，误判为第32,33,38,60号。

同时用主成分分析法结合费希尔判别模型得出误判结果相同。

针对问题四，我们利用问题三中两种方法得出的公式分别将待测30组数据代入，得出结果：

线性回归法有14个肾炎患者，16个健康人。

成分分析法有13个肾炎患者，17个健康人。

（详细结果见附录四）

针对问题五，我们将问题二和四的结果进行比较发现差别在于68,71,77号。

无论是何种模型和方法最终分析得出结论：

由于诊断准确率基本不变，减少了三种元素Na、Zn、K的检测，则诊断效率大大提高而且为病人节约了成本和时间，所以问题二方法比问题四方法更优。

关键词：

多元线性回归主成分分析法logistic回归模型费希尔判别模型

1问题重述

1.1问题背景

随着我国人口老龄化问题的日益显现，肾炎已经成为一种在中老年人群中比较流行的疾病。

能否及时诊断出肾炎，对于该病的治疗起着至关重要的作用。

因此，对于“如何对肾炎进行诊断”问题的研究，引起了相关方面的高度重视。

努力让每一个肾炎患者都能“早发现，早治疗，早康复”是每一个医院的职责。

其中，对化验结果的检测分析是诊断该病的最直接途径。

建立相关的数学模型来研究“如何用最少的化验指标来确诊肾炎患者”已经成为解决该问题的主流方法。

1.2需要解决的问题

人们到医院就诊时，通常要化验一些指标来协助医生的诊断。

诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。

表B.1是确诊病例的化验结果，其中1－30号病例是已经确诊为肾炎病人的化验结果；31－60号病例是已经确诊为健康人的结果。

表B.2是就诊人员的化验结果。

我们的问题是：

1.根据表B.1中的数据，提出一种或多种简便的判别方法，判别属于患者或健康人的方法，并检验你提出方法的正确性。

2.按照1提出的方法，判断表B.2中的30名就诊人员的化验结果进行判别，判定他（她）们是肾炎病人还是健康人。

3.能否根据表B.1的数据特征，确定哪些指标是影响人们患肾炎的关键或主要因素，以便减少化验的指标。

4.根据3的结果，重复2的工作。

5对2和4的结果作进一步的分析。

2模型的假设及符号说明

2.1模型假设

假设1：

假设题目中所给的60组数据时随机抽取的，数据之间是互相独立的

假设2：

假设所给病人都只患肾炎一种病，而不患其它病

假设3：

假设题目中所给的7中元素在人体内含量是互相独立的，互相之间没有影响

假设4：

假设题目中所给的数据都是真实可靠的，化验没有错误

假设5：

假设所给的7中元素在不同健康人体内部含量基本相同，体重的影响可以忽略不计

假设6：

假设我们通过7中元素在人体含量就可以确诊，其它因素可以忽略

2.2符号说明

符号

说明

i=1,2,3,4,5,6,7分别表示Zn、Cu、Fe、Ca、Mg、K、Na的含量

i=0,1,2,3,4,5,6,7,8表示回归方程的系数

y=0表示健康人；y=1表示患者

i=1,2,3,4,5,6,7;j=0,1.表示第i中元素在健康和患者体内平均含量

j=0表示健康人；j=1表示患者

回归平方和

残差平方和

总离差平方和

统计量

Logistic变换

3问题分析

此题研究的是医院关于肾炎确诊的数学建模问题。

要求我们通过建立合理的数学模型，研究不同元素在人体含量，确定人体是否患病。

通过对题目中所给的30组健康人和30组患者人体7中元素含量分析我们发现，就诊者是否患肾炎可能取决于人体内某些元素的含量增减或各元素占总元素比例变化。

因此，我们可以建立相应的回归方程来研究，患病与否与人体元素含量的关系。

在运用相关性检验我们的假设。

针对问题一：

由于logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率等等。

因此，问题一我们建立logistic回归模型，研究患肾炎与否与人体相关元素含量的关系。

再通过假设检验验证我们建立模型的合理性、正确性。

运用我们建立的模型对题目所给的60组病例验证其准确率。

针对问题二：

我们运用问题一中建立的模型，对B.2中所给的30个就诊人员是否患病进行判定，求出对应的p值和0.5比较，对于0.5表示患病，小于0.5表示健康，求解结果以表格呈现。

针对问题三:

问题一中我们已经求出对应的回归方程，以及标准差等，知道元素的显著关系由强到弱关系为Ca,Cu,Fe,Mg,Na,Zn,K。

对于显著关系较强的·Ca,Cu,Fe不予剔除，逐步考虑剔除4种，3种，2种，1种元素。

每剔除一次，计算剔除后的模型准确率。

在准确率基本不变的情况下，剔除元素越多越好。

这样我们保留了重要因素，又不影响模型合理性。

针对问题四：

我们运用问题三中剔除相关元素后的模型对对B.2中所给的30个就诊人员是否患病进行判定，求出对应的p值和0.5比较，对于0.5表示患病，小于0.5表示健康，求解结果以表格呈现。

针对问题五：

对问题二和问题四的结果先进行定量分析，找出求解结果差异的本质原因，再考虑其他因素对模型结果的影响，最后从经济层面分析，模型的优劣。

4数据分析与处理

我们通过分析所给的60组数据，绘制各种元素在健康人与患者体内含量对比健康的与患病的人体内相关元素平均值

绘制表格如下：

表1

患者体内每种元素的平均值

143.1

12.33

23.07

698.17

113.39

201.13

526.83

健康人体内每种元素的平均值

186.6

21.92

62.01

2511.13

295.14

90.37

367.21

绘制成对比图如下

分析图可知:

患者与健康人Ca的含量差距较大。

5问题一的解答

我们共建立了两种模型：

Binarylogistic回归模型和费希尔判别模型

5.1．1模型一Binarylogistic回归模型的建立

从上面的分析可知，我们建立模型求解结果只有患病和健康两种。

由于

logistic回归，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率。

由此，我们考虑运用Logistic回归模型。

BinaryLogistic回归模型因变量只能取两个值1和0（虚拟因变量），我们采用多种方法对取值为0和1的因变量进行分析。

以y表示事件发生的概率（事件未发生的概率为1-p），并吧y看作自变量的线性函数

p的值在[0,1]变化，由于当p接近0或1时，自变量即使有很大变化，p值也不可能有很大变化，所以上式直接用普通的最小二乘法是行不通的。

我们引入p的logistic变换

其中p/（1-p）,logit（p）是因变量Y=1的差异比，可得

综上所述，我们建立BinaryLogistic回归模型

5.1.2模型一Binarylogistic回归模型的求解

我们假设各元素的含量与是否患病之间满足线性相关关系。

定义y=1表示

患病；y=0表示健康。

我们将题目中所给的数据导入Excel中，利用Excel中的回归函数，选择95%的置信度，得到回归统计量、方差分析、回归方程。

回归统计量：

回归系数R

0.823778902

回归系数R平方

0.678611679

调整了的R平方

0.642228095

标准误差

0.304480163

截距

0.891130318

观测值

其中R为相关系数，可以衡量X与Y之间的相关性大小。

本题求得

R=0.82378902表示X与Y之间高度正相关，即有：

患病与否与人体各种元

素含量高度相关。

回归参数表

系数

标准误差

t统计量

t临界值

p值

置信区间下限

置信区间上限

截距

0.891130318

0.182874217

4.872913928

2.006646761

1.07256E-05

0.524166363

1.258094273

-0.00033276

0.000998095

-0.33339847

2.006646761

0.740174162

-0.00233559

0.001670061

0.01665917

0.004121863

4.041660757

2.006646761

0.0001759

0.008388048

0.024930292

-0.00162436

0.000859017

-1.89095449

2.006646761

0.064207521

-0.00334811

9.93816E-05

-0.0003009

6.25484E-05

-4.81065958

2.006646761

1.3308E-05

-0.00042641

-0.00017539

-0.00095756

0.00059758

-1.60238881

2.006646761

0.115127573

-0.00215669

0.000241577

-6.607E-05

0.000307255

-0.21503439

2.006646761

0.830581651

-0.00068262

0.000550483

0.000303191

0.00021961

1.380584666

2.006646761

0.173312468

-0.00013749

0.000743871

由上表可知:

b0=0.891130318,b1=-0.00033276,b2=0.01665917,b3=-0.00162436,

b4=-0.0003009,b5=-0.00095756,b6=-6.607E-05,b7=0.000303191

回归方程为：

（1.1）

5.1.3假设检验（方差分析和F检验）

因自变量与自变量是否存在上述求出的回归表达式所示的线性关系是需要检验的，显然，如果所有的的都很小，与的线性关系就不明显，所以可令原假设为

当成立时满足

在显著水平下有上分位数，若，则接受；否则，拒绝。

经代入数据计算得到结果如下表所示：

自由度

平方和

平均平方和

F统计量

F临界值

p值

回归

10.17917518

1.454167883

15.68543408

2.191626027

展开阅读全文