南昌大学第十届数学建模竞赛.docx

上传人:b****3 文档编号:26753637 上传时间:2023-06-22 格式:DOCX 页数:37 大小:1.21MB
下载 相关 举报
南昌大学第十届数学建模竞赛.docx_第1页
第1页 / 共37页
南昌大学第十届数学建模竞赛.docx_第2页
第2页 / 共37页
南昌大学第十届数学建模竞赛.docx_第3页
第3页 / 共37页
南昌大学第十届数学建模竞赛.docx_第4页
第4页 / 共37页
南昌大学第十届数学建模竞赛.docx_第5页
第5页 / 共37页
点击查看更多>>
下载资源
资源描述

南昌大学第十届数学建模竞赛.docx

《南昌大学第十届数学建模竞赛.docx》由会员分享,可在线阅读,更多相关《南昌大学第十届数学建模竞赛.docx(37页珍藏版)》请在冰豆网上搜索。

南昌大学第十届数学建模竞赛.docx

南昌大学第十届数学建模竞赛

数学建模竞赛

承诺书

我们仔细阅读了南昌大学数学建模竞赛的竞赛规则。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。

如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B中选择一项填写):

B.

报名序号是(没有或不清楚可不填):

_____152__________.

参赛队员(打印并签名):

所属院系(请填写完整的全名):

 

日期:

2013年5月28日

 

数学建模竞赛

编号专用页

 

评阅编号:

 

评阅记录:

 

冠心病月就诊人数的预测模型

摘要

冠心病是目前威胁人类生命的严重疾病之一,对其发病环境因素进行分析,其目的是为了对其就诊人数的进行预测,掌握其发病率的规律,有效降低其危害。

本文建立了主成分分析模型对冠心病月就诊人数问题进行了研究。

问题一中,我们采用主成分分析法,利用spss数学软件分别算出各个影响因素的特征值和方差贡献率及累计方差贡献率,提取出累计方差贡献率为92.234%的y1,y2这两个新变量,并采用偏最小二乘回归方法对冠心病的发病率与影响因素之间的关系进行线性拟合,得出它们的关系式,z=0.1435*exp(0.00571*y1)+0.1237*exp(0.005843*y2)

并进行检验,检验结果证明,模型有效。

为卫生行政部门和医疗机构提出预警和干预的建议方案做准备。

问题二中,我们根据用excel画平均气压与时间的关系,可认为气压随时间近似为正弦变化,根据利用matlab中cftool软件包拟合出影响最大的两个变量中,平均气压、最高气压与月份序号的关系,以便预测接下来的气压变化,利用傅里叶级数模型x=a0+a1*cos(w*t)+b1*sin(w*t)预测:

第97月的第一个新变量为:

885.153********732913081212563522,

第97月的第二个新变量为:

1023.166********38880403457721973。

将其带入关系式的第97个月病例数为z=71.252773851797661202236690667907

问题三中,我们就问题一、二中的分析结果,查阅相关文献,为提高冠心病的就诊率对卫生行政部门和医疗机构提出预警和干预的建议方案。

经分析可知,冠心病的发病率主要受影响于经主成分分析得出的两个新变量,经偏最小二乘回归分析,我们得出冠心病的发病率与它们的关系式,利用关系式可以很方便的计算出各变量的预测值,并根据预测值提出相应的干预方案。

本文最大的亮点在于我们利用主成分分析法减少了变量的个数,大大简化了工作。

为研究的深度与准确性提供了保障。

关键字主成分分析法偏最小二乘回归SpssMatlabExcel傅里叶级数模型

 

 

一、问题重述

冠心病是目前威胁人类生命的严重疾病之一,这种疾病的诱发已经被证实与环境因素,包括温度和气压之间存在密切的关系。

对冠心病中的发病环境因素进行分析,其目的是为了对冠心病就诊人数的进行预测,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。

数据(见MWQS.xls)来源于南昌市某医院2002年至2010年间共96个月的冠心病发病病例信息以及相应期间当地的气象资料。

请你们根据题目提供的数据,回答以下问题:

1.根据数据基本信息,对月就诊人数及环境因素进行统计描述。

2.研究冠心病月就诊人数与环境因素间的关系,建立冠心病月就诊人数的预测模型。

3.结合1、2中所得结论,对卫生行政部门和医疗机构提出预警和干预的建议方案。

二、模型假设

1.假设各影响因素对冠心病发病率的影响是独立的,不会相互影响

2.假设所得数据只受所调查的因素的影响,其它影响忽略不计

3.假设统计人数没有出现遗漏或重复,为准确值

4.假设该地的气候条件对冠心病发病人数的影响与其它地区一致

5.假设不存在重复就医的情况

6.假设调查的这几年期间,环境因素属正常

三、问题分析

冠心病的发病人数受平均气压和最高气压等因素的影响,我们需要对各个因素对发病人数的影响进行定性和定量分析,得出影响最大的因素,并利用结果对未来发病人数进行预测,以提出最优解决方案。

对于问题一,要求我们对所得数据进行分析,并得出各个影响因素对冠心病发病人数的影响大小,并从所得结果中提取出影响最大的因素,对未来冠心病发病人数进行预测,并提出最优解决方案,以提高就诊率,降低其危害。

所以,我们采用主成分分析法,利用spss数学软件计算出各个影响因素对发病率的特征值、方差贡献率及累计方差贡献率。

通过分析所得结果,提取出影响最大的因素进行进一步分析,研究其对发病人数的影响特点,得出病例数与影响因素之间的关系。

对于问题二,要求我们对影响最大的因素与冠心病发病人数进行定量描述,得出它们的函数关系式,以缩小研究范围,提高研究有效性,便于未来对发病人数的预测。

因此,我们应用偏最小二乘回归对问题一中得出的两个新变量进行数据处理,得到发病人数与它们之间的函数关系式,并利用函数关系式预测出未来的两个新变量的值及病例数。

对于问题三,要求我们对问题一、二所得结果进行整理分析,对未来冠心病的发病人数进行预测并提出有效的预警及干预方案。

四、符号说明

y1新变量1

y2新变量2

x1平均气压

x2最高气压

x3最低气压

x4平均湿度

x5最低湿度

x6平均温度

x7最高温度

x8最低温度

z病例数

五、模型建立与求解

5.1问题一的求解

5.1.1主成分分析法

1.基本原理主成分分析是把多个变量转化为少数几个新综合变量的一种多元统计方法,其基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾.其手段是将原来众多的具有一定相关性的变量重新组合成新的少数几个相互无关的综合变量(也叫抽象变量),来代替原来变量,这些新的综合变量称之为主成分.一般地说,利用主成分分析得到的主成分与原来的变量之间有如下基本关系:

(1)每一个主成分都是各原始变量的线性组合.

(2)主成分的数目大大少于原始变量的数目.

(3)主成分保留了原始变量的绝大多数信息.

(4)主成分之间互不相关.据此我们建立数学模型.

2.数学模型在一个统计问题中,假设我们收集到n个样品,每个样品观测到p个变量(记为x1,x2,…,xp)为简单起见,可以设xi均值为0,方差为1,(1≤i≤p),构成一个n×p阶的样本原始资料阵X=(xij)n×p.主成分分析的目的在于利用p个原始变量(x1,x2,…,xp)构造少数几个新的综合变量,使得新变量为原始变量的线性组合,新变量互不相关,新变量包含p个原始变量的绝大部分信息.这样定义x1,x2,…,xp为原始变量,y1,y2,…,ym(m≤p)为新的综合变量指标,每一个新综合变量指标是p个原始变量的线性组合:

(1)

同时要求满足以下几个条件:

(1)yi与yj相互无关;

(2)y1是x1,x2,…,xp的一切线性组合中方差最大者;y2是y1与不相关的x1,x2,…,xp的所有线性组合中方差最大者;y3,…,ym是z1,z2,…,zm-1分别都不相关的x1,x2,…,xp的所有线性组合中方差最大者.则新变量y1,y2,…,ym分别称为原变量x1,x2,…,xp的第一、第二、…,第m主成分.

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2…,p)在诸主成分yi(i=1,2,…,m)上的系数aij(i=1,2,…,m;j=1,2…,p).从数学上可以证明,他们分别是p个原始变量(x1,x2,…,xp)相关矩阵的前m个具有较大特征值所对应的特征向量,而各个新综合变量yi的方差var(yi)恰好是相应的特征值

i.各主成分的方差贡献大小按特征根顺序排列,是依次递减的,即

1≥

2≥…≥

p≥0.其几何意义是:

主成分分析相当于对原坐标轴做一次旋转变换,使得新坐标系的第1轴对应于数据变易的最大方向,第2轴与第1轴正交,且对应于数据变易的第二大方向,依次类推.

3.基本步骤

(1)确定分析变量,收集原始数据;设原始数据矩阵为X=(xij)n=n×p其中xij表示第i个样品(对象)在第j个变量上的取值。

(2)在进行主成分分析之前,要检验该样本矩阵是否适合于主成分分析.KMO检验是检验变量之间偏相关关系的统计量,用于检验变量间的偏相关系数是否过小.KMO统计量越接近于1,说明各变量间的偏相关系数越大,KMO统计量大于0.9,效果最好;如果统计量小于0.6,则不适合于做主成分分析.Bartlett球形检验是检验相关矩阵是否是单位矩阵,即各变量是否各自独立.

(3)对原始数据进行标准化,即令

(2)

其中,xj,sj分别为第j列元素的样本均值和样本标准差,即

n×p为标准化的样本资料库.

(4)由标准化后的数据矩阵求协方差矩阵,或者由原始数据矩阵求相关系数矩阵R.这两种方法结果相等.本文采用直接计算原始数据的相关矩阵的方法(对于数量级差别较大或者有量纲的数据宜适用).设原始数据X的相关系数矩阵为

(3)rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为

(4)

(5)计算R的特征根和特征向量;

根据特征方程

得R的特征根为

(i=1,2,...,p),将特征根按照从大到小的顺序排列,排列后的特征根不妨仍然表示为

1≥

2≥…≥

p≥0.同时可得对应的特征向量u1,u2,…,up,将他们标准正交化u1,u2,…,up称为主轴

(6)计算所有变量的方差贡献率及累计方差贡献率;

i的方差贡献率为

(5)

i的累计方差贡献率为

(6)

(7)确定主成分的数目m.方法有:

①一般取累计贡献率达85%—95%的主成分;②选用所有

i≥1的主成分;③累计特征值乘积大于1的主成分;④画出特征值变化曲线,以转折点位置为标准判断.本文采用累计贡献率达85%—95%的主成分.

(8)确定主成分函数表达式模型.设m个主成分对应的特征向量分别为A1,A2,…,Am其中A=(a1ja2j…apj),akj表示aj的第k行的元素,则第j个主成分yj的函数表达式为

(7)

(9)提炼主成分yj的抽象意义.由xk与yj的相关系数bkj的大小可以确定yj主要与哪几个变量显著相关,然后根据这几个变量的实际意义提炼yj的抽象意义.

(10)检验主成分模型.根据n个样本的m个主成分的函数值,通过计算m个主成分y1,y2,…,ym的相关系数就可以检验m个主成分是否线性无关.如果两个主成分的相关系数为0,则说明这两个主成分线性无关,模型有效;否则线性相关,模型无效.

(11)求主成分函数值。

将各样本标准化数据xk代入(7),可以求得各样本的第j个主成分yj的函数值.

4.模型求解

(1)收集原始数据矩阵X.本文选取了南昌市某医院2002年至2010年间共96个月的平均气压的平均值、月最高气压的平均值、月最低气压的平均值、月平均气温的平均值、月最高气温的平均值、月平均气压的平均值8项指标,并分别记为x1,x2,…,x8,每个指标有96个数据(见附件1)。

使用SPSS软件进行求解(见附录2)。

(2)将原始数据标准化,(SPSS内部计算).

(3)求原始数据的相关系数矩阵R,如图1所示.

图1、相关系数矩阵

图2、因子分析检验图

从图2看出,表格的第一行为检验变量间偏相关程度的KMO统计量,其值在0.6之上才适合做主成分分析,效果显著,如果小于0.6,效果不显著,不适合做主成分分析。

下面的三行为球形检验的结果,球形检验原假设的变量是不相关的,显然只有拒绝原假设的情况下数据才适合做因子分析。

本例中KMO值为0.687,球形检验显著,两个条件都满足,变量间相关程度大,适合做因子分析。

(4)计算矩阵R的特征根、各因子的方差贡献率及累计方差贡献率,并确定主成分的个数.如图3所示。

 

图3、R特征值及其累计方差贡献率

从图3中可以看出,第一、第二主成分对方差的累计贡献率达到92.234%,它们分别对应着原样本数据点数据变异的最大、次大方向,是原变量系统的一个最佳整合,从而我们可以以92.234%的精度将变量的有效维数从8维降至2维.因此可以将前2个因子作为主因子.

(5)确定主成分函数表达式模型,因子得分系数矩阵如图4所示

图4、相关系数矩阵

设2个主成分分别为y1,y2,则建立模型为

(8)其中x1,x2,…,x8均为原变量经过均值为0,方差为1标准化后的变量.

(6)对主成分y1,y2的意义进行解释。

图5给出了原变量与第1、第2主成分的相关系数

图5、旋转后的因子载荷矩阵

第一主成分y1与原变量x1(平均气压的平均值)、x2(最高气压的平均值)x3(最低气压的平均值)x6(平均温度平均值)的相关系数的绝对值都超过了0.948,因此它是一个反映气温和气压的综合因子,我们称之为气压温度因子.

第二主成分y2,与原变量x4(月平均相对湿度的平均值)的相关系数为0.972、x5(月最低相对湿度的平均值)的相关系数为0.949,其余的都不超过0.202,因此它是一个反映相对湿度的因子,称为湿度因子.

(7)计算2个主成分的函数值.将96个经过标准化的数据

代入模型yj,可以得到96个地区的主成分yj的函数值,结果如表1所示

 

(8)检验主成分模型.由于主成分分析的4个条件中的前3个(每一个主成分都是各原始变量的线性组合;主成分的数目大大少于原始变量的数目;主成分保留了原始变量的绝大多数信息),只要检验4个主成分是否相关即可.由步骤(7)计算的2个主成分的得分矩阵Y=(yij)96×2,求矩阵Y的协方差矩阵如图6所示.

图6因子得分的协方差矩阵

从图6可以看出,主成分得分的协方差矩阵为单位矩阵,说明提取的2个主成分是互不相关的.满足假设的条件,模型和结果有效。

5.1.2多元非线性回归分析将96个月的发病率作为因变量,记作z,将发病率的96个数据填入表1中。

下面寻找发病率z与主成分y1,y2的关系式,这需要使用多元非线性回归分析方法。

经过反复试验探索,找到的非线性回归模型为

z=0.1435*exp(0.00571*y1)+0.1237*exp(0.005843*y2)(9)

模型检验的p=0.0399<0.05,说明模型有效。

5.1.3结果分析

1)从非线性回归模型(8)可以得到以下结论:

(1)由a1>0可得,发病率与气压温度因子具有正相关性;

(2)由a2<0可得,发病率与湿度因子具有负相关性;

(3)由

可得,气压温度因子比湿度因子对于发病率的影响显著;

2)从主成分模型(7)可以得到以下结论:

由第1个方程可知:

(1)由x1,x2,x3的系数为负值可得,气压温度因子与月平均气压、月平均最高气压、月平均最低气压具有负相关性;

(2)由x4,x5,x6的系数为正值可得,气压温度因子与月平均温度、月平均最高温度、月平均最低温度具有正相关性;

(3)由x7,x8的系数为负值可得,气压温度因子与月平均相对湿度、月平均最低相对湿度具有负相关性;由第2个方程可知:

(4)由x1,x2,x3的系数为正值可得,湿度因子与月平均气压、月平均最高气压、月平均最低气压具有正相关性;

(5)x4<0,x5<0,x6>0可得,湿度因子与月平均温度、月平均最高温度成负相关性,与月平均最低温度具有正相关性;

(6)由x7,x8的系数为正值可得,湿度因子与月平均相对湿度、月平均最低相对湿度具有正相关性;

5.2问题二的求解

对气压的预测,根据用excel画平均气压与时间的关系,可认为气压随时间近似为正弦变化,根据利用matlab中cftool软件包拟合出影响最大的两个变量中,平均气压、最高气压与月份序号的关系,以便预测接下来的气压变化,利用傅里叶级数模型预测:

y=a0+a1*cos(t*w)+b1*sin(t*w)

 

(程序见附录3.图2-1)

y1=a0*cos(x*w)+b1*sin(x*w)

a0=1009(1009,1010)

a1=10.45(9.539,11.37)

b1=3.661(2.156,5.167)

W=0.5234(0.5209,0.526)

SSE:

678.3

R-square:

0.8967

AdjustedR-square:

0.8933

RMSE:

2.715

预测的第97月的平均气压为:

885.153********732913081212563522

 

(程序见附录3.图2-2)

y2=1012+10.48*cos(0.5233*t)+4.092*sin(0.5233*t)

SSE;673.8

R-square:

0.9022

AdjustedR-square:

0.9022

RMSE:

2.706

预测的第97月的最高气压为:

1023.166********38880403457721973

由于由第一问中,算出第一个新变量y1,第二个新变量y2,这两个变量的贡献率最大,所以用matlab拟合一个病例数z与y1,y2的非线性方程(拟合过程见附录4):

z=0.1435*exp(0.00571*x1)+0.1237*exp(0.005843*x2)

带入y1=885.15302064164732913081212563522

y2=1023.166********38880403457721973

z=71.252773851797661202236690667907

 

5.3问题三的求解

5.3.1冠心病的定义:

平时我们说的冠心病多数是动脉器质性狭窄或阻塞引起的,又称冠状动脉粥样硬化性心脏病。

其冠状动脉狭窄多系脂肪物质沿血管内壁堆积所致,这一过程称为动脉硬化。

动脉硬化发展到一定程度,冠状动脉狭窄逐渐加重,限制流入心肌的血流。

心脏得不到足够的氧气供给,就会发生胸部不适,即心绞痛。

就全世界而言,半个世界以来,冠心病已成为威胁人类健康最严重的疾病之一,是美国和某些工业化国家的主要死因。

因此,对冠心病的预警和干预队提高其就诊率,有效降低其危害有着至关重要的作用。

5.3.2冠心病的症状:

临床分为隐匿型、心绞痛型、心肌梗死型、心力衰竭型(缺血性心肌病)、猝死型五个类型。

其中最常见的是心绞痛型,最严重的是心肌梗死和猝死两种类型。

心绞痛是一组由于急性暂时性心肌缺血、缺氧所起的症候群:

(1)胸部压迫窒息感、闷胀感、剧烈的烧灼样疼痛,一般疼痛持续1-5分钟,偶有长达15分钟,可自行缓解;

(2)疼痛常放射至左肩、左臂前内侧直至小指与无名指;

(3)疼痛在心脏负担加重(例如体力活动增加、过度的精神刺激和受寒)时出现,在休息或舌下含服硝酸甘油数分钟后即可消失;

(4)疼痛发作时,可伴有(也可不伴有)虚脱、出汗、呼吸短促、忧虑、心悸、恶心或头晕症状。

心肌梗塞是冠心病的危急症候,通常多有心绞痛发作频繁和加重作为基础,也有无心绞痛史而突发心肌梗塞的病例(此种情况最危险,常因没有防备而造成猝死)。

心肌梗塞的表现为:

(1)突发时胸骨后或心前区剧痛,向左肩、左臂或他处放射,且疼痛持续半小时以上,经休息和含服硝酸甘油不能缓解;

(2)呼吸短促、头晕、恶心、多汗、脉搏细微;

(3)皮肤湿冷、灰白、重病病容;

(4)大约十分之一的病人的唯一表现是晕厥或休克。

5.3.3冠心病的病因:

冠心病的主要病因是冠状动脉粥样硬化,但动脉粥样硬化的原因尚不完全清楚,可能是多种因素综合作用的结果。

认为本病发生的危险因素有:

年龄和性别(45岁以上的男性,55岁以上或者绝经后的女性),家族史(父兄在55岁以前,母亲/姐妹在65岁前死于心脏病),血脂异常(低密度脂蛋白胆固醇LDL-C过高,高密度脂蛋白胆固醇HDL-C过低),高血压,尿糖病,吸烟,超重,肥胖,痛风,不运动,等。

5.3.4好发群体

一、45岁以上的男性,55岁以上或者绝经后的女性;

二、父兄在55岁以前,母亲/姐妹在65岁前死于心脏病;

三、低密度脂蛋白胆固醇LDL-C过高,高密度脂蛋白胆固醇HDL-C过低的和伴有高血压、尿糖病、吸烟、超重、肥胖、痛风、不运动等情况的人群。

5.3.5南昌市各大医院心内科医疗配置

南昌大学第一附属医院:

心内科是其规模较大的临床科室,现有宽敞明亮整洁的病房两层,设有病床93张及设施良好的CCU病房,拥有一批高学历、高水平的技术骨干,其中主任医师、教授11人,副主任医师、副教授4人,主治医师7人,其中具博士学位者3人,具硕士学位者15人,硕士研究生导师9人。

南昌市第一医院:

心内科现有普通病床60张重症监护病床8张,并配有心导管室、心电生理室、运动平板室、超声室,配备了与国际接轨的医疗科研设备美国GE公司INNOVA2000型数字平板X线机、美国GE公司PruckaCardioLab2000多导心电生理仪、心脏程序刺激仪、IBI温控射频融仪、美国GE公司心血管病重症监护仪、美国GE公司ApexPro™遥感监测仪主动脉内气囊反搏仪(IABP)、美国惠普5500心脏彩色超声诊断仪、美国GE公司单光子发射计算机扫描(SPECT)、美国GE公司marquetteSeries2000运动平板机、美国GE公司MARS®计算机、Holter动态心电图分析系统(24小时动态心电图)、美国搏利屋公司小时动态血压监测仪、美国GE公司Responder除颤器、美国GE公司MAC1200静息心电图系统。

科内拥有国内外知名专家教授主任医师付主任医师博士及研究生多名技术力量雄厚。

江西省儿童医院:

中心于年成立由小儿心内科、心胸外科、重症监护室三部分组成,并配备有专职麻醉医师影像专家(X-rayECHO)、手术及监护专科护士。

拥有专业医师20人,其中高级医师11人,硕士研究生导师2人。

中心设置45张床位,其中重症监护床位16张。

解放军94医院心血管内科成立于1988年,展开床位52张,另设心脏监护单元(CCU)年住院病人数1500余人.现有博士3人,硕士7人;硕士研究生导师2人;南京军区专业委员会副主任委员1人,委员1人。

5.3.6干预措施及建议

1.在下月适当安排主治医师加班,为患者及时就诊提供保障;

2.在下月合理调配病床张数,为患者治疗提供保证;

3.在下月组织

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 药学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1