ImageVerifierCode 换一换
格式:DOCX , 页数:38 ,大小:60.84KB ,
资源ID:24781956      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/24781956.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx

1、高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组

2、委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):C 我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):(隐去论文作者相关信息等)日期:2012年9月10日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):脑卒中发病环境因素分析及干预

3、摘要:脑卒中逐渐威胁人们的生活,本文主要针对脑卒中发病病例信息和受病环境因素进行统计分析,从实际数据结果加深对脑卒中的认识,旨在对脑卒中加以预防。针对问题一,先主要借助于EXCEL编程及筛选功能、MATLAB辅助编程对附件数据进行错误修复及标准化处理,得到20072010年期间有效数据的发病年、月、日,然后在EXCEL中分别按性别、年龄、职业、时间(包括年、月、日)四个字段对发病人数进行统计,并以图、表的形式予以展示,最后总结出脑卒中患者男女性别比为:1、集中患病年龄段为7180岁、高危职业为农民、存在一定季节性等结论,该问属于一般的数据统计分析模型。针对问题二,先对患者按照天来统计四年每天的

4、发病人数(共1461条数据),再将气象数据与发病人数按天进行关联构成新的源数据,同时计算每天的气压差、温差,最后以发病率为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度10个特征为自变量进行多元线性回归,其步骤是先画因变量与自变量的散点图观测它们的关系,再利用SPSS软件统计所有变量之间的相关性,最后进行多元逐步回归分析。结果表明:发病率与这10个指标的相关性并不大,但整体上与最低气压、最高温度和温差呈正相关、与平均湿度和气压差成负相关;发病率与平均湿度直接线性相关,逐步回归的模型为,且模型检验为F=、Sig.=,表明该模型通过显着性检

5、验;再次以平均湿度为因变量,以气压和温度为自变量进行逐步回归发现,平均湿度受温差、平均气压影响,这间接地对脑卒中发病率产生影响。针对问题三,通过查阅资料文献得到脑卒中高危人群的重要特征和关键指标、主要诱发因素,并结合问题一和问题二中的相关结论对脑卒中高危人群进行了预警和干预建议。最后,本文对模型进行了检验及评价分析,用20072010年的发病数据进行回代检验,两者绝对距离小于1的比例为86%。同时,本文的分析可以推广应用到其它疾病、农作物收成等受环境、气候影响的分析及预警评估中。关键词:脑卒中,环境因素,统计分析,多元线性回归,逐步回归,显着性检验,预警,回代检验一、 问题重述随着社会的发展,

6、人们生活水平不断提高,但与此同时,伴随着城市化进程加快,人口密度加大,生活节奏加快和膳食结构改变等不良现象,一些严重威胁人们身体健康的疾病发生,心脑血管疾病以其高死亡率而越来越引起人们的关注。其中脑卒中(俗称脑中风,包括脑出血、蛛网膜下腔出血和脑梗塞,脑出血和蛛网膜下腔出血均属心脑血管疾病)是目前威胁人类生命的严重疾病之一,目前对脑卒中尚无特效治疗方法或令人满意的治疗效果,因此积极预防尤为重要。随着人们对预防疾病和保证健康生活方式的重视,气候变化对人类健康的影响也倍受关注,国内外许多研究表明气象要素的变化对心脑血管疾病有着重要影响。因此研究气象要素与心脑血管疾病之间的关系对于防病和治病具有重要

7、的现实意义。脑卒中的发生是一个漫长的过程,一旦得病就很难逆转。对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。请建立数学模型,解决如下问题:问题一:根据病

8、人基本信息,对发病人群进行统计描述。问题二:建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。问题三:查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、问题二中所得结论,对高危人群提出预警和干预的建议方案。二、 问题分析本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总体研究方法是通过对现有数据进行统计规律分析,找出脑卒中的发病率与环境因素(温度、湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见的预防脑卒中的预防措施,最后再结合第一问和第二问分析的结果对高危人群提出预警和干预的建议方案,旨在提高对脑卒中的防护能力

9、。鉴于此目的,针对本文具体3个问题,可以进行如下分析:针对问题一的分析本问题主要根据附件(Appendix-C1)中四个文件中的脑卒中发病病例信息进行相关统计分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人群进行统计描述,本文主要从以下几点进行考虑:1. 按性别统计,包括总人数、主要集中年龄段、高危职业名称、发病与诊断时间的间隔(判断该病的潜伏性);2. 按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间隔;3. 按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔;4. 分别按发病年、月统计(发病年月和诊断年月基本一

10、致),包括性别、年龄段、高危职业等。但是从附件数据中发现,在“Timeofincidence(发病时间)”和“Reporttime(诊断报告时间)”中存在不同的时间格式以及错误(如:#或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为27/09/2008情况下,很明显5008应该是2008)。同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统

11、计,其统计的工具主要是EXCEL,利用EXCEL丰富的公式编辑、筛选、绘图、统计等功能进行处理。针对问题二的分析本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点:1. 在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过EXCEL的筛选功能和编写程序统计出在20072010年期间每一天的发病人数,进而可以计算出按天及按月的发病率;2. 对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计20072010年期间每一天的气象信息(温度、湿度、大气压),并计算出每一天的温度差、气压差,再按月分别统计这四年中的8种指标(平均气压、最高气压、最低气

12、压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值;3. 将1和2统计或计算的数据进行一一关联,构造后续分析的数组。从上面的统计数据可以看出,该问是一个多元统计问题1,即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下:1. 先整体按天(20072012年共1461天)分析,分析过程为:在EXCEL中画出发病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律(如线性相关);利用SPSS统计软件对所有数据进行相关性分析,分析两两之间的相关性;利用SPSS软件进行多元线性回归,分析回归结果是否通过显着性检验;由于某些变量之间

13、存在非常大的互相关(如温度之间的三个指标互相关系数都比较大),因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于SPSS统计软件中的逐步回归选项或MATLAB中的stepwise逐步回归工具箱);如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理;2. 然后按照每月或季节的数据进行类似分析;3. 按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有EXCE

14、L、SPSS、MATLAB。针对问题三的分析本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。三、 模型假设及符号说明基本假设1. 假设附件中的数据除空格、R#等本身有误外其它数据是合理可靠的。2. 假设附件数据中每一位病人都属于不同的人。3.

15、假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素保持不变。4. 假设当地人口不发生较大的变动,死亡率与出生率相近。5. 假设20072010数据四年间,没有发生重大自然灾害。6. 假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。符号说明:某天(月或其它统计范围)的年发病率:某天(月或其它统计范围)的发病人数:某年的总发病人数:自变数个数:因变数:自变数:各个自变数对依变数的各自效应;:自效应的集合基本定义发病率:式(1)四、 模型建立及求解针对问题一的模型建立及求解由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对脑卒中发病者信息进行统计描述,其方法是分

16、别对脑卒中患者病历信息性别、年龄、职业、发病时间进行统计,全部操作在EXCEL中进行。4.1.1附件数据的修复处理由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必要对数据做修复处理,本文的修复过程及方法如下:1. 年龄(Age)字段中存在大于110岁(如799)、0岁的信息,本文处理方法为将区间1110之间的数据作为有效值,其余的全视为该患者年龄信息缺失。2. 职业(Occupation)字段中存在1-8之外的数据(如9、工等异常),可能是数据录入错误,也可能是还有其它类的职业没在附件中说明,本文处理方法为将1-8之外的数据视为其他职业段。3. 发病时间(Timeof

17、incidence)字段存在日期格式错误(如15-06-20082007/1/1)不统一,需要对时间数据进行修复及标准化处理,处理原则有以下几点:类似“2009-0-24”的数据丢失了月份信息,此类数据认为是错误数据,不统计在20072010期间内;类似“发病时间为5008/7/31、诊断报告时间为27/09/2008”存在明显错误的数据,5008应该修复成2008;类似“31/12/2009”的数据不是EXCEL标准的时间格式,为了便于在EXCEL中快速按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通过在一单元格中进行编写公式进行字符串处理,假设“31/12/2

18、009”所在的单元格为“D2”,则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2),LEFT(D2,2)”;类似“发病时间为20110/05/09、诊断报告时间为2010-08-08”的数据,直接视为无效数据;类似“2009/0/24”的数据也视为无效数据。4.1.2脑卒中患者信息统计分析通过上述数据修复过程后,将得到标准格式的脑卒中患者信息数据,现按照模型分析的思路对脑卒中病例信息进行统计描述,其核心方法是在EXCEL中利用“COUNTIF”函数对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患

19、者人数,具体操作界面截图见附录B-1。4.1.2.1按性别统计对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,20072010年按性别的脑卒中发病人数统计如表1所示,20072010年男女患病人数统计图如图1所示。表120072010年按性别的脑卒中发病人数统计表性别年统计人数附件总数据2007-2010年总2007200820092010男3338533367730210384519810483女28526285065940865948059102丢失信息121201200男女比:1:1:1:1:1:1图120072010年男女患病人数统计图从表1及图1可以看出,2007年男女

20、患者之比达:1,男性比女性更容易患脑卒中这类疾病,可能原因有以下几点:一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。4.1.2.2按职业统计按职业字段进行筛选得到20072010年各职业患病人数统计数据如表2所示。表220072010年各职业患病人数统计表20072010年按职业统计数据职业发病人数性别编号名称男女1农民2975014644150842工人4856310817453退休人员6646412625174教师216163535渔民6643236医务人员9065257职工7355132208离退人员17511181570其它或缺失

21、其它或缺失1777595248268从表中看出农民患病人数为29750,属于较多人群,为高危职业,而医务人员等明显较低,这与工作强度相关。图220072010年各职业患病人数统计图可以得出结论:经济收入较高的人群较收入低的人群脑卒中发病率低,户外重体力劳动者发病率较高。4.1.2.3按年龄统计针对职业统计中,退休人员所占比例较大说明与年龄有关,对年龄进行筛选,将年龄分为各个阶段,统计出每年中不同年龄段的患病人数,以2007-2008年为例进行如表3所示的描述,各年详细数据见附录A-1。表32007-2008年各年龄段内患病人数统计表20072008患病人数男女患病人数男女1-101710750

22、153511-20743149521-3035161957322531-4015596592351736241-5061437424086556629851-601861113572625471514103361-7030691784128546692803186471-8048422678216466483496314781-9023091051125835491609193691-1001705711324982167101-110330422其他1267650251213图320072010年各年龄阶段的患病人数图由图3可见,患病人数随年龄的增加而增加,上升速度以50到60上升较快,61

23、岁以上的人群脑卒中的高发群体,集中年龄段在71-80岁之间,说明脑卒中以老年人居多,且脑卒中患者呈年轻化的趋势。进一步按照各年龄段,对男女患者发病人数的进行区分,可得图4所示。图420072010四年期间各年龄阶段男女患病人数图可见,男女高峰年龄段一致;男性在4171岁之间,患病人数明显高于女性;71岁以后患病明显回落,且低于女性发病人数,可知男性发病早于女性,同时这现象可能是由于高龄组死亡率持续增高所致。但无论男女,构成随着年龄增加而增加,这与其在年龄发病相符。4.1.2.4按时间统计按年份对发病人数进行统计,得到发病人数统计图如图5所示。图5脑卒中患者按年的统计人数分布从上图可以看出,附件

24、总数据为61923条,但20072010间有效的数据为61885条,本文做的统计描述均是针对20072010期间内。按月份对发病人数进行统计,得到发病人数统计表如表4所示。表420072010年各月患病人数统计表月份07年发病人数08年发病人数09年发病人数10年发病人数2007-2010年总发病人数19351827872176053942732196184814875028310191918830172454914106917588601699538651072177687618825606610321517793161049527101415009311757520281197136693

25、41680517791221127282916324954101374146175917185312111208137866415654815121369132180710714568图62007-2010年总发病人数随月份的变化曲线从20072010年逐年脑卒中发病人数的月分布发现,该病以春节多发,高峰出现在35月,1月为次高峰,69月发病较为平缓,12月出现低谷期。由此可见发病存在一定的季节差异,脑卒中春季高于其他季节,而夏、秋、冬三季发病差异不大。利用EXCEL中的“COUNTIFS”函数对脑卒中病例数据进行多重筛选统计患者数量,得到20072010四年每天的发病人数,其曲线如图7所示。

26、图72007-2010年总发病人数随天的变化曲线根据式(1)求出20072010四年内每天的发病率,其发病率随时间的变化曲线如图8所示。图82007-2010年发病率随天的变化曲线从图7和图8可以看出,20072010四年内每天发病人数变化不大,每天的发病率基本保持不变。但是如果按天进行统计分析,每天的随机误差容易对结果造成影响,再每月的均值作为统计对象进行分析,四年内每月的发病率百分比曲线如图9所示。图92007-2010年发病率随月的变化曲线从图9可以看出,月发病率随时间呈周期性波动,具有一定的季节性。4.1.2.5重要结论(1) 脑卒中的发病有年集中趋势,更呈增长趋势;(2) 发病存在时

27、间差异,春节为高发季,1月为高峰月;(3) 患者人数男性多于女性,性别比重为:1;(4) 工作性质对脑卒中发病有直接影响,农民为高危职业;(5) 脑卒中发病处于老年阶段,集中年龄段为7180,且逐年呈年轻化发展。针对问题二的模型建立及求解由问题分析可知,问题二属于一个多元统计分析模型,目标是研究因变量发病率与自变量温度(包括平均温度、最高温度、最低温度、温度差)、湿度(包括平均湿度、最低湿度)、气压(平均气压、最高气压、最低气压、气压差)之间的关系,本文主要从多元线性或非线性回归模型上进行分析。4.2.1数据归纳与统计附件(Appendix-C2)中的数据已经给出了2007-2010年每天对应

28、的气象数据,可以在这基础上对气象数据进行进一步细化:(1)计算每天的气压差与温差,最终得到20072010年期间每一天的气象特征信息平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等10个特征变量;(2)按月份统计所有数据中每月的最大值及最小值情况。最后将第一问进行统计出的发病率情况与气象数据信息进行一一关联,得到最终待分析的数据集,其数据形式如表5所示。表5数据归纳统计形式按天统计时间发病人数发病率发病率千分比平均气压最高气压最低气压平均温度最高温度最低温度平均湿度最低湿度气压差温度差2007/1/19886712007/1/2326847320

29、07/1/333586772007/1/43682782007/1/5341029584764.2.2多元回归分析过程多元回归分析包括多元线性回归及多元非线性回归,判断方法主要通过绘制因变量与各个自变量之间的散点图,首先直观分析因变量与自变量的关系,如果从散点图可以看出明显的线性关系,那么可以考虑通过多元线性回归进行分析;如果从散点图并不能发现明显的线性规律,可能是呈非线性,也可能是多个自变量之间的耦合关系的影响,需要进一步分析才能决定。4.2.2.1多元线性回归数学模型若依变数Y同时受到m个自变数X1、X2、Xm的影响,且这m个自变数皆与Y成线性关系,则这m+1个变数的关系就形成m元线性回归。因此,一个m元线性回归总体的线性模型为:式(2)其中,N(0,)。相应

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1