关于logstic模型毕业论文.docx
《关于logstic模型毕业论文.docx》由会员分享,可在线阅读,更多相关《关于logstic模型毕业论文.docx(29页珍藏版)》请在冰豆网上搜索。
关于logstic模型毕业论文
摘要……………………………………………………………………………………………Ⅰ
关键词……………………………………………………………………………………………Ⅰ
Abstract…………………………………………………………………………………………Ⅱ
Keywords…………………………………………………………………………………………Ⅱ
前言…………………………………………………………………………………………………1
1.绪论……………………………………………………………………………………………1
1.1研究意义……………………………………………………………………………………1
1.2研究背景……………………………………………………………………………………2
2.Logistic回归模型简介………………………………………………………………………2
2.1二分类Logistic回归模型…………………………………………………………………3
2.2多分类Logistic回归模型……………………………………………………………………4
2.3Logistic回归模型的参数估计方法………………………………………………………5
3.用Logistic回归模型预测糖尿病人病情程度…………………………………………7
3.1问题分析……………………………………………………………………………………7
3.2相关性分析……………………………………………………………………………………8
3.3模型建立及检验……………………………………………………………………………10
3.4结论…………………………………………………………………………………………12
参考文献………………………………………………………………………………………13
附表1……………………………………………………………………………………………14
附表2……………………………………………………………………………………………15
附表3……………………………………………………………………………………………17
附表4……………………………………………………………………………………………20
致谢……………………………………………………………………………………………22
用Logistic回归模型预测糖尿病人病情程度
摘要:
本文首先总结近年来有关Logistic回归模型的研究概况。
然后在Logistic回归模型的基础上,重点介绍了二分类和多分类变量Logistic回归模型。
并使用最大似然估计法对模型中的参数进行估计,然后根据拟合优度检验法对模型进行检验。
最后利用SPSS统计软件对糖尿病人的病情程度建立模型,进行系统的分析并将预测结果与实际结果进行比对。
关键词:
Logistic回归模型;拟合优度;最大似然估计;回归系数
Logisticregressionmodelwasusedtopredicttheseverityofdiabeticpatients
Abstract:
ThistopicsummarizessomesurveysresearchedinrecentyearsaboutLogisticRegressionModel.ThenonthebasisofLogisticRegressionModel,introducetwocategoriesandmultiplecategoriesvariableofLogisticRegressionModel,.Firstly,usemaximumlikelihoodtoestimsteparametersofthemodel,andsecondly,usethegoodnessoffittestforthemodel,thirdly,useSPSSstatisticalsoftwaretobuildmodelfortheseverityofpatientswithdiabetesmellitus,carryoutthesystemanalysisandcontrasttheforecastandrealresult.
Keywords:
Logisticregressionmodel;goodnessoffit;maximumlikelihoodestimate;regressioncoefficients.
前言
Logistic回归模型作为重要的统计模型,对种群生态学的研究具有核心理论价值。
近代以来,它几乎是描述种群S型曲线增长的唯一数学模型。
可以利用它表征种群的数量动态,如养鱼模型中鱼类种群的增长、收获与时间的关系和国民生产总值的预测等。
因此,对其的产生、发展、演变及其类型给以系统的阐述显得非常有必要。
1838年比利时数学家P.F.Verhult推导出Logistic基本方程,但被长期湮没,直到上世纪20年代才被生物学和统计学家R.Pearl和L.J.Reed重新发现。
实践应用表明,它能有效地描述某些有界增长现象,在信息科学、生物学、预测学、农业学和经济学等领域都有较为广泛的应用,但对于Logistic方程中3个待估参数的确定方法却一直困扰着使用者。
章元明等介绍了16种Logistic方程参数的估计方法,而这些方法既受到运用范围的限制,又牵涉到许多复杂的计算,尽管可以用Excel、Mathematica等软件辅助分析,但步骤仍然比较繁琐、且工作量大。
SPSS软件以交互性好、无需编程、易学易用等优势,它包含着两种Logistic拟合曲线的方法。
本文根据Logistic回归模型原理,利用糖尿病人胰岛素含量,生长素含量之间的关系,建立Logistic回归模型,在SPSS中实现,得到模型回归系数,建立方程,从而预测出病人病情程度,最后将预测结果和实际结果进行比对。
1.绪论
1.1研究意义
在医学研究中,生存与死亡、发病与未发病、阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯等许多因素有关.这时用线性回归模型的方法对实际问题进行研究已经不再适用,而应用Logistic回归模型则可同时分析包含离散变量和连续变量的多个自变量,并能有效地分析自变量之间的交互作用,为多个自变量与因变量之间的相互关系提供一个定量描述,从而弥补了线性模型的不足。
Logistic回归模型不仅用于医疗卫生领域的研究,还应用于社会学、经济学等各个领域。
例如研究学生龋齿严重程度与刷牙、饮食习惯、年龄等可能的影响因素之间的关系,不同的婚姻状况与收入、心理状态和孩子数量间的关系等等。
近年来,随着计算机技术的发展,统计软件的日益成熟使得Logistic回归模型作为一种有效的数据处理方法被广泛应用。
1.2研究背景
Malthus提出生物总量增长定律后,Verhulst最早提出了Logistic回归模型.进入二十世纪以后,随着人口问题的不断尖锐化,美国统计学家Pearl和Read重新发现了该模型,并将其应用于研究各国人口的变化情况【1】。
近年来,关于Logistic回归模型的研究主要集中在参数估计理论研究和假设检验理论研究两个方面。
1983年,McCullagh和Nelder提出了Logistic回归模型的极大似然估计【1】。
随着半Logistic分布的出现,BalakrishnaN等人又考虑基于二型截尾数据的半Logistic分布的参数估计,2001年,King和Zeng探讨了如何对稀有事件Logistic回归模型的参数进行校正。
为扩大Logistic回归模型的应用范围,V.E.Vimi与M.Tenenhaus提出用偏最小二乘回归法来估计Logistic回归模型的参数【2】。
随着计算机技术的发展及统计软件的日益成熟,韩俊林、陈励就如何运用EM算法对随机效应Logistic回归模型进行参数估计进行了讨论,随后Howard对Logistic回归模型的参数估计进行了更深一步的研究。
1980年,GHosmerDW和LemeshowS研究出多元Logistic分布的拟合优度检验,随着多分类Logistic回归模型的提出,Begg与Gray研究出一新的检验方法:
将多分类Logistic回归模型分解为一系列二分类Logistic回归模型,从而将多分类Logistic回归模型的显著性检验问题转化为我们所熟悉的二分类Logistic回归模型的拟合优度检验。
为评价多分类Logistic回归模型,Lesaffre与Albert提出多分类Logistic模型的回归诊断,却由于其涉及过多的计算方法而阻碍其推广。
于是,Pigeon与Heyse又对原有的几种检验方法进行了修正;高歌、何露等人阐述了因变量为多分类有序变量时Logistic回归应用条件的检验方法;2006年,张标研究了Logistic回归模型的半参数极大似然估计的渐近性;2007年,A.K.Guptaa等人又探讨了多分类有序Logistic回归模型的假设检验问题;在原有的二分类Logistic回归模型的拟合优度检验方法上,JellJ.Goeman、MortenW.Fagerland等人进一步讨论了多分类Logistic回归模型的拟合优度检验问题【3】。
2.Logistic回归模型简介
20世纪70年代以来随着对该模型研究的深入,形成了多值Logistic回归模型(多项反应分类logistic回归模型和有序反应分类Logistic回归模型)、多水平Logistic回归模型和模糊Logistic回归模型等回归模型,本章将对多分类Logistic回归模型和二分类Logistic回归模型作简单的介绍。
2.1二分类Logistic回归模型
2.1.1二分类Logistic回归模型的应用背景
当事件A为一般分类变量,将事件A令为Y(Y的取值为0或者1),并且在整个过程中Y服从二项分布,即:
,则可以应用二分类Logistic回归模型对事件进行分析。
二分类Logistic回归要求Y有两种取值,即两个分类(0或1),预测事件发生或者不发生的概率分别是多少。
在此模型中,因变量必须是连续的。
二分类Logistic回归模型也被广泛应用于社会生活的预测分析中。
例如,品质变量性别有两个类别,可将这两个类别分别以0或1二值变量的形式重新编码。
如设置变量Y1表示是否男,取1表示男,取0表示女。
一位年轻人可能高中毕业或未能毕业;一位工人可能被雇用或失业;一位处在临床试验中的病人在一个观察期内对治疗可能有反应或没反应。
这类数据具有两种可能的结果,被称为二分类数据。
习惯上,其结果通常被描述为成功或失败。
关注的实质结果一般被看作成功(Y=1),而它的反面则被看作失败(Y=0)。
对于二分类因变量,研究者的目标是以一组自变量为条件来估计或预测成功或失败的概率。
2.1.2二分类Logistic回归模型的定义
在分析分类变量时,通常采用对数线性模型,Logistic回归模型是对数线性模型的一种特殊形式。
假设有一个理论上存在的连续反应变量代表事件发生的可能性,其值域为负无穷到正无穷,当该变量的值域跨越一个临界值C时,便导致事件发生,于是有:
(2-1)
这里,是实际观察到的反应变量。
=1表示事件发生,=0表示事件不发生。
因变量是二值的,仅取0和1两个值,为研究对象,设有个因素影响的取值,则称
(2-2)
为Logistic回归模型,其中的个因素称为Logistic回归模型的协变量。
若上式(2-2)中是线性的,则称上述模型为Logistic线性回归模型:
(2-3)
其中是待估参数。
由(2-2),可以求得优势的值