高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx

上传人:b****5 文档编号:28927008 上传时间:2023-07-20 格式:DOCX 页数:27 大小:550.91KB
下载 相关 举报
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx_第1页
第1页 / 共27页
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx_第2页
第2页 / 共27页
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx_第3页
第3页 / 共27页
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx_第4页
第4页 / 共27页
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx

《高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx》由会员分享,可在线阅读,更多相关《高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx(27页珍藏版)》请在冰豆网上搜索。

高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目.docx

高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目

基于逐步回归的脑卒中发病环境因素分析及干预模型

摘要

本文通过建立合理的假设,对某地区2009-2010年脑卒中发病率与8种气象因素进行了相关分析,并经多元逐步回归建立了脑卒中发病率的预报模型进行了定量分析,得到了较为合理的结论。

考虑到发病率与气象因素的复杂关系,在逐步线性回归模型的基础上,引进广义线性回归模型(GLM)进行推广。

针对问题一,本文对性别、年龄段、职业和时间序列以及4年的平均发病例数进行统计和分析,在删除了一些缺失或失真数据的基础上,对数据分别进行整理分析。

最后,在性别方面,得到脑卒中发病率男性比女性的高。

从年龄结构看,发病人数主要集中在50~90这一年龄区间内,其所占比例达81.10%。

从职业结构看,农民的发病率最大。

从各年的平均发病人数看,在各年季节交替月份的患病人数较多。

针对问题二,考虑到气温、气压和相对湿度对发病率的影响不确定,本文首先建立了Pearson相关分析模型,通过r值的大小来判断发病率与各指标是否存在着某种相关。

经计算得出温度与发病率呈正相关,气压、相对湿度与发病率呈负相关,且各指标与发病率均呈弱相关,相关度并不显著。

其次,考虑到发病率有可能受到多个因素的共同影响,于是用逐步线性回归模型对各因素逐步分析删除,最后得出脑卒中月平均发病率与平均气压、最大气压、最小气压、平均温度、最高温度和最高相对湿度这五个因素的一个多元回归线性预报模型,并进行了一定的定量分析。

最后,考虑到逐步线性回归模型的各指标是相互独立性,而气压和温度之间存在相互作用,通过引入平均气压和平均温度交互项,对模型二进行了改进,得到了一个更优的模型。

通过对模型的定量分析,本文预报模型具有实际应用价值。

针对问题三,脑卒中高危人群的重要特征有:

偏瘫、失语、精神症状等,关键指标有:

高血压、吸烟醉酒、血脂异常、糖尿病等。

结合问题一、二的结论,分别针对高危人群提出预警和干预的建议方案。

从这两个方案中得知:

减少脑卒中发病率要从提高身体素质、疾病的认知和膳食均衡这三方面去考虑。

最后,考虑到逐步线性回归模型中脑卒中发病率与气象因素中的线性关系,而实际上,发病率与气象因素关系的复杂性线性关系并不足以充分刻画,本文在假设脑卒中发病例数与整个地区是一个小概率事件上,其实际分布接近于泊松分布,利用广义线性回归模型(GLM)进行推广,一定程度优化了逐步回归模型。

 

关键字:

脑卒中气象因素相关分析多元逐步回归GLM模型

 

一、问题重述

脑卒中(俗称脑中风)是目前威胁人类生命的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。

这种疾病的诱发已经被证实与环境因素,包括气温和湿度之间存在密切的关系。

对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。

同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。

数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。

请你们根据题目提供的数据,回答以下问题:

1.根据病人基本信息,对发病人群进行统计描述。

2.建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。

3.查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合1、2中所得结论,对高危人群提出预警和干预的建议方案。

二、符号说明及名词定义

符号

符号说明

简单相关系数

脑卒中发病人数

回归分析解析变量(或指标)

回归方程的回归系数

残差

残差绝对值与实际值的百分比

各个月份残差绝对值

表示各月份的实际值

三、基本假设

1.假设4年中年与年间气象没有发生剧烈变化

2.假设发病人数不存在人口迁移的巨大变化

四、问题分析

4.1背景分析

脑卒中(Stroke)是脑中风的学名,是一种突然起病的脑血液循环障碍性疾病。

又叫脑血管意外。

是指在脑血管疾病的病人,因各种诱发因素引起脑内动脉狭窄,闭塞或破裂,而造成急性脑血液循环障碍,临床上表现为一过性或永久性脑功能障碍的症状和体征.脑卒中分为缺血性脑卒中和出血性脑卒中。

根据统计中国每年发生脑卒中病人达200万,发病率高达120/10万。

现幸存中风病人700万,其中450万病人不同程度丧失劳动力和生活不能自理。

致残率高达75%。

尽管该病与高血压、心脏病等主要危险因素有关,但其发病往往受季节气候变化及其它外界因素的影响。

气象因素的变化对脑血管病发病的影响,国内外均有报道。

多数研究指出,在冬季脑卒中的发病率有明显增加,发病率与温度有很大的关联,但也有研究指出,脑卒中发病率与季节没有明显的变化,这些日渐深入的研究结果不尽一致,主要是因为各地的地理气候特点差别较大以及社会因素、人种遗传等等方面的区别。

为了更好的预防这种疾病,本文对2007-2010年某地区脑卒中发病率与该地区相应的思念气象因素指标进行分析,初步验证了气象因素与脑卒中发病率之间的关系。

4.2问题一分析

根据附件1-4,本文以脑卒中发病人数,分别从发病时间、性别、年龄结构和职业进行数据整理分析,得到一些初步的结论,对脑卒中发病情况进行一些简单的分析与总结。

通过数据的初始处理发现题目所给的数据中存在空缺,对于数据的统计问题,数据的空缺是不可忽视的地方,要综合考虑空缺数据的作用以及给数据统计造成的影响大小,乔珠峰、田凤占和黄厚宽[1]等人指出:

如果缺失的数据占总数据量的比例较小,认为缺失数据对原始数据的处理影响较小,可以忽略不计,如果缺失数据在总数据量中所占比例较大可能对原始数据的处理造成很大的影响,不能直接忽略,需要通过填补来完善数据才能进行计算。

对每个部分共计多少数据,缺失多少数据,删除多少数据以及剩余多少完整数据进行研究,通过对数据的进一步处理,得到男女患病比例的扇形图,将年龄结构处理后的数据转化成柱状图,据图分析患病人群所处的年龄段,根据这一结果结合脑卒中的患病原因分析不同年龄段患病的原因;对于按月份划分的数据,做出各年中每月患病人数与年份患病总人数比值的折线图,通过图示结果分析患病人数与月份之间的关系,从而反映气候的变化对脑卒中病发的影响情况,以及对此应做出的相关防御措施。

对于职业这一类别的数据,通过统计缺失数据所占的比例比较大,如果要对数据进行填补将会耗费很大的人力物力,对此认为获取这类缺失数据造成的代价太大,此外由于职业之一类别的数据分析没能对解题带来较大的帮助,而且职业指标的概念比较模糊无法准确描述这类数据的处理对现实生活和相关研究有何积极作用,因此本文不再对这一类别的数据进行统计分析。

4.3问题二分析

本文通过统计2007-2010年间的脑卒中月平均发病人数,对应选取4年间的8个气象因子:

平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均相对湿度以及最低相对湿度,试图建立月平均发病率与气象因子之间的数学模型。

通过查询资料得知发病率等于月发病人数与发病总人数的比值,但是使用发病率建立的模型所反映的变量之间的变化趋势不明显(无量纲化处理后的原因),故本文建立发病人数与气象因素之间的模型,再用发病人数除以总人数即可得到发病率与气象因子之见的数学模型。

首先建立基于Pearson简单相关分析的模型,分析脑卒中月均患病人数与气象指标的相关关系,然后本文利用逐步回归分析建立月发病率与多项气象因素之间的预测模型,通过t值检验,逐步剔除一些对因变量影响不大的指标,直到所有指标都通过t值检验才终止计算,得到最终脑卒中月发病数与气象因素的预报模型。

最后本文认为气压与温度之间存在一定的相互关系,在逐步回归模型的基础上通过引入交叉项对模型进行改进,进一步提高模型的拟合度,完善模型。

4.4问题三分析

通过查阅资料得到脑卒中高危人群的重要特征和关键指标,结合问题一和问题二得到的结论,分别对高危人群提出预警和干预的建议方案。

对预警方案从生活、医疗和就医三个方面提出建议;对干预方案从脑卒中高危人群和非高危人群两方面提出建议。

五、模型的建立与求解

5.1问题一模型的建立与求解

脑卒中是目前威胁人类健康的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。

每年都有很多人患上脑卒中,本文通过对往年患病人群的数据进行统计,按发病人群的性别、年龄、发病年份和病人的职业进行归类总结。

根据所得的结果分析脑卒中患病人群在年龄结构上的分布情况以及在不同职业、不同性别的分布情况。

5.1.1缺失数据的处理

通过初步分析,发现原始数据存在一些缺失,对于缺失的数据针对不同的情况有不同的处理方式。

2007-2010年间共61923例脑卒中发病数,其中缺失信息数据经过整理得到下表

表1:

缺失个数及其占总数据百分比

类别

性别

年龄

月份

缺失个数

12

151

38

所占百分比

0.0002%

0.24%

0.0006%

通过表1可以看到按性别、年龄和月份为类别的数据中,缺失数据的个数占总数的百分比都非常小,本文认为对总体统计处理所造成的影响很小,因此这三个类别的缺失数据可以采用直接删除数据,对剩余的数据进行统计分析。

5.1.2按不同类别统计数据

李翠花[2]曾总结了脑卒中的患病因素有高血压、心脏病、肥胖、糖尿病以及抽烟酗酒等

本文通过Excel对2007-2010年四年中脑卒中发病情况进行整理分析,分别从性别、年龄结构、发病时间和职业四个方面进行初步分析。

通过网上搜索资料得知脑卒中的发病与高血压、心脏病、肥胖、糖尿病和吸烟酗酒等有很大的关系,本文通过患病人群的性别分布、年龄结构以及患病人群的从事职业的统计结果分别分析脑卒中病因与相关统计结果的关系。

1)按性别统计

对于2007-2010年的数据,本文通过统计4年中男性患者的总人数和女性患者的总人数,作出患病人群的性别比例,结果如下图

图1:

患病人群男女比例

根据图1得知男性患脑卒中的比例与女性患脑卒中的比例为1:

0.85,通过查阅资料和结合生活实际不难发现现实生活中的绝大部分男性(成年人)都有吸烟的生活的习性,而女性吸烟的人数比较少,通过前面的结论已经得知吸烟会导致脑卒中的病发,男性由于吸烟增加了脑卒中的病发,因此男性患脑卒中疾病的比例会大于女性。

同时随着社会的发展工作上的应酬变成了达成合作的必要条件,应酬时酒已经成为必不可少的一道菜肴,由于出面谈生意大部分是男性,前面已经分析得知过量的喝酒也是造成脑卒中病发的重要因素之一,从这个角度分析,男性患脑卒中的概率比女性要大,因此就整个男女集体来分析比较,脑卒中的患病人群中男性的比例会大于女性。

据此我们也可以证实抽烟酗酒会增加脑卒中病发的概率,因此减少抽烟或者不抽烟以及不酗酒(适量饮酒)可以有效降低脑卒中的病发,同时也有利于身心健康。

2)按年龄分析

根据2007-2010年的数据,本文通过统计4年中各个年龄段患病人数的总和作出直方图,据图分析相关结果(这里本文将0岁的儿童归结到1-10岁的年龄段,大于100岁的人归结到91-100岁的年龄段)

图2:

患病人群的年龄段分布

对于年龄我们将1-10岁归为儿童,11-20归为青少年,21-40为中年41-60岁为中老年61-100归为老人。

通过计算得知患病人数的平均值为6177.2,据此可以得知患病人数大于平均值的年龄段、人数和所占比值如下表

表2:

患病人数大于平均值的年龄段、人数和所占比值

年龄段

51-60

61-70

71-80

81-90

人数

8692

14888

21556

11280

所占比例

14.04%

24.04%

34.81%

18.21%

本文将患病人数大于平均值的年龄段段称为病症高发年龄段,因此脑卒中病症高发年龄段大部分为老年人。

通过查阅资料得知老年人腹部脂肪容易堆积,形成向心性肥胖,肥胖者高血压的患病率较高,因为老年人容易患高血压;此外老年人新陈代谢能力降低,存在一定的代谢障碍容易患糖尿病;随着年龄的增加老年人接受刺激的能力也随之下降,患上心脏病的概率也增大,前面已知心脏病,高血压,糖尿病等都是引发脑卒中的发病因素,因此老年人患脑卒中的概率比较大,患病的人数也比其他年龄段多。

通过分析得知老年人可以通过锻炼身体增强自身的抵抗能力和身体素质,用强健的体魄阻挡脑卒中的病发,同时还可以陶冶情操,修养身心。

此外据图2可得,31-50岁的中年也有较大一部分的患病人数,其中还有儿童。

伴随着社会的发展,中年人的生活习惯越来越没有规律,饮食也杂乱无章,由于不良的生活习惯会导致高血压、肥胖等症状的病发,所以也有较大一部分的中年人因此患病。

对于儿童患病原因是由天性的遗传和缺乏维生素K造成,因此儿童也有小部分的患者。

中年人可以通过调整饮食结构和改善生活习惯来避免相关病症的发生,从而减少脑卒中的病发,对于儿童可以通过补充相关的维生素来抵抗病菌的入侵,提高免疫能力,减少病症的发生。

3)按月份分析

由于2009年患病人数比较少,而其他3年的数据相对较高,为了更直观的反映4年数据之间的变化趋势,本文用每月的患病人数与年患病总数的比值画出折线图

图3:

不同月份患病人数分布

从图中可以看出各年季节交替月份的患病人数比临近月份的患病人数较多,由于交替月份的气温的变化无常,白昼温差较大而且不易预测,老年人身体的抵抗力较弱,因此在季节交替的月份不少老年人就会因防备不及而发生脑子中等疾病,此外天气变冷时特别是冬春季节,气温偏低,人体血管收缩明显,血压增高,危险因素控制不佳的情况下,容易发生心脑血管事件从而造成脑卒中的病发。

所以,特别是对有危险因素如高血压、糖尿病、动脉硬化的老年人,在季节交换的月份要注意防寒保暖,做好防御疾病的相关措施,在春冬季节的时候要注意保暖,常到阳光充足的地方晒晒太阳,这样有利于对危险因素的控制,防止脑卒中的病发。

4)按职业分析

根据2007-2010年的数据,本文通过统计不同职业的患病人数得到下图

图4:

不同职业患病人数比例

根据图4本文抛开其他和缺失数据的选项,根据不同职业的患病人数进行分析,农民这一职业中脑卒中的患病人数最多,由于农民市场在野外劳作,长时间经受烈日的暴晒以及暴雨的冲洗容易导致脑卒中的病发;其次是退休人员,退休人员大多数和老人,老人容易患心脏病和高血压等疾病,由于这些疾病容易造成脑卒中的病发,所以退休人员中有较多的患病者;接着是工人,由于工人的工作环境比较恶劣,并且时常加班加点,造成体力活动过量,进而促使脑卒中的病发,所以工人占据一定的比例。

5.2问题二模型的建立与求解

5.2.1模型一:

基于Pearson简单相关分析的模型

相关关系是现象间不严格的依存关系,即个变量之间不存在确定性的关系,依据陈胜可[3]的总结:

相关关系中当一个或几个相互联系的变量取一定数值时,与之相应的另一变量也会发生变化,但其关系值不是固定的,往往按照某种规律在一定范围内变化。

通过对附件给出的数据,首先计算气象因素月平均值和脑卒中月平均发病数具体数据如下表

表3:

2007-2010年的月平均数据

月份

平均气压

最高气压

最低气压

平均气温

最高气温

最低气温

平均湿度

最低湿度

患病人数

1

11.74395

285.625

1024.48

3.758065

7.604032

0.841935

67.83065

51.00806

1348.25

2

1022.144

1024.994

1019.114

6.739347

10.88575

3.484698

70.70628

51.9572

1256.25

3

1019.225

1022.362

1015.985

10.34839

14.79516

6.644355

67.25

46.39516

1373

4

1017.117

1020.139

1014.057

13.38164

17.8093

9.648548

66.37554

46.12258

1346

5

1009.714

1011.883

1007.36

21.58629

26.7379

17.34435

64.41935

40.21774

1400.5

6

1005.694

1007.387

1003.871

24.47417

28.3075

21.60833

77.15833

58.58333

1232.5

7

1003.923

1005.584

1002.137

29.14839

33.26532

26.00806

73.83871

55.35484

1300

8

1006.024

1007.738

1004.261

28.8871

32.88226

25.94597

74.8871

56.19355

1295.75

9

1011.334

1013.048

1009.635

24.78

28.54333

22.04333

78.175

60.14167

1241

10

1018.21

1020.188

1016.358

19.43629

23.58871

16.01129

73.16935

50.54032

1330.5

11

1023.169

1025.4

1020.913

12.16667

16.5825

8.56

70.975

48.91667

1205

12

1023.33

1026.137

1020.61

6.805645

11.01855

3.379839

66.8629

46.97581

1142.5

若随机变量X、Y的联合分布是二维正态分布,

分别为n次独立观测值,相关系数r的公式为

(1)

其中

通过Matlab结合表3的数据计算得到

表4:

指标的相关关系r值

变量

平均气压

最高气压

最低气压

平均温度

最高温度

最低温度

平均湿度

最低湿度

r值

-0.1326

-0.1161

-0.1161

0.0952

0.1139

0.0743

-0.3798

-0.4005

简单相关系数r有如下性质

表5:

相关系数r的性质

-1

完全负相关

(-1,-0.5)

强负相关

-0.5

中负相关

(-0.5,0)

弱负相关

0

无线性相关

(0,0.5)

弱正相关

0.5

中正相关

(0.5,1)

强正相关

1

完全正相关

结合表4和表5得知脑卒中的患病人数与各个自变量之间的关系如下表

表6:

各个自变量与脑卒中的相关关系

变量

平均气压

最高气压

最低气压

平均温度

最高温度

最低温度

平均湿度

最低湿度

关系

弱负相关

弱负相关

弱负相关

弱正相关

弱正相关

弱正相关

弱负相关

弱负相关

5.2.2模型二:

逐步回归模型

步骤一:

多元线性回归方程的建立

多元线性回归方程[3-4]的基本公式

(2)

式中

表示方程的回归系数,对于回归系数采用最小二乘法进行拟合,公式为

(3)

通过计算得到回归参数

为[-226132274-1020-1227538-62813335-79]

从而得到多元线性回归方程

(2)

通过Matlab软件对方程拟合度进行分析结果如下

图5:

各个指标与患病人数的拟合图

对方程拟合优度进行检验得到决定系数

通过修正得

越大说明方程的拟合程度越好。

根据拟合优度的检验以及图5的拟合效果发现回归函数的拟合程度不高存在较大的误差,可能存在一些不相关的指标影响着模型的拟合,因此需要对方程作进一步分析。

步骤二:

函数的误差分析

根据多元线性回归方程公式(4)利用表3中各个自变量的数据进行预测,通过预测得到的数据与实际想比较,计算出回归方程的误差,本文通过残差进行检验,残差的计算公式为:

(3)

计算的得到的预测值和残差如下表

表7:

预测值及残差

月份

实际

预测

残差

1

1348.25

1501.3

-153.05

2

1256.25

1419.1

-162.85

3

1373

1530.4

-157.4

4

1346

1499.9

-153.9

5

1400.5

1530.2

-129.7

6

1232.5

1388.0

-155.5

7

1300

1450.8

-150.8

8

1295.75

1488.5

-192.75

9

1241

1353.4

-112.4

10

1330.5

1473.6

-143.1

11

1205

1396.1

-191.1

12

1142.5

1311.6

-169.1

根据表4中各个月份的残差值,分别计算出残差绝对值与实际数据的比值,公式

(4)

式中

表示残差绝对值与实际值的百分比,

各个月份残差绝对值,

表示各月份的实际值。

理想的即误差较小的函数残差跟实际数据的比值百分比比较小。

通过计算得到如下结果

表8:

残差绝对值与实际值的百分比

月份

1

2

3

4

5

6

比值

11.35%

12.96%

11.46%

11.43%

9.2%

12.62%

月份

7

8

9

10

11

12

比值

11.6%

14.88%

9.05%

11.75%

15.85%

14.80%

通过上表的数据可以看出每个月份残差绝对值与实际值的百分比都超过了10%,本文认为模拟出来的数据残差百分比超过5%的公式,拟合程度不高,自变量中存在一些对拟合有影响的因素。

步骤三:

逐步回归分析

题目需要分析脑卒中的发病率与气温、气压以及相对湿度间的关系,本文首先考虑8个指标:

平均气压、最高气压、最低气压、平均气温、最高气温、平均相对湿度和最低相对湿度共同作用对发病率的影响,由于一些对因变量影响不显著的指标降低了模型的拟合度,因此采用逐步分析回归剔除影响不显著的指标。

通过t检验逐步分析各个自变量对脑卒中发病率影响,对通过不了t检验(对发病率影响很小)的自变量进行逐个的剔除,最终得到全部能通过t值检验的数值指标作为最终函数的自变量,然后再对函数进行相关分析。

t检验

在回归模型中变量的选择是一个难题,在选择变量时,一方面希望尽可能不遗漏重要的影响变量,另一方面又要遵循参数节省原则,使自变量的个数尽可能少,因为当自变量数目较过大时,模型计算复杂,且会扩大估计方差,降低模型精度。

对于变量的筛选方法比较多,结合本题的情况本文采用向后选择变量法进行筛选,它是变量筛选的一种常用方法。

它首先以全部自变量

作为解释变量拟合方程(公式4),然后每一步都在未通过t检验的自变量中选择一个值最小的变量,将它从模型中删除,直到某一步之后所有的自变量都通过t检验。

通过Matlab软件求得t值如下表

表9:

各个自变量的t值

x

x1

x2

x3

x4

x5

x6

x7

x8

t值

4.0125

-3.6197

-4.2583

0.9795

-2.1823

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1