基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx

上传人:b****7 文档编号:22289619 上传时间:2023-02-03 格式:DOCX 页数:20 大小:49.92KB
下载 相关 举报
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx_第1页
第1页 / 共20页
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx_第2页
第2页 / 共20页
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx_第3页
第3页 / 共20页
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx_第4页
第4页 / 共20页
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx

《基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx(20页珍藏版)》请在冰豆网上搜索。

基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx

主成分分析法是将原来众多具有一定相关性(比如P个指标),重新组合成一组新的彼此无关的综合指标来代替原来指标的分析方法。

最经典的做法就是用F1(选取的第1个线性组合,即第1个综合指标)的方差Var来表达,即Var越大,表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第1主成分。

如果第1主成分不足以代表原来P个指标的信息,再考虑选取F2即选第2个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,即Cov(F1,F2)=0,则称F2为第2主成分,依此类推可以构造出第三、第四,……,第P个主成分。

主成分分析的数学模型如下:

……

其中

为X的协方差阵∑的特征值对应的特征向量,

是原始变量经过标准化处理的值。

主成分分析法的基本方法是:

①将原始指标数据标准化;

②求指标数据间的相关系数矩阵R;

③求R矩阵的特征值、特征向量和贡献率;

④确定主成分个数k;

⑤对主成分含义做出解释;

⑥合成主成分得到综合评价值。

2基干SPSS主成分分析的影响各国卫生水平的多个因素的数据挖掘

2.1数据预处理(数据来源:

THEWORLDHEALTHSTATISTICSREPORT2007)

2.1.1数据筛选

ⅰ为了分析简便起见,我们首先只选取了影响“Mortalityandburdenofdisease”,“morbidity”,“HealthsystemsHRH”,“Healthsystemsexpenditure”的卫生因素。

ⅱ对于这四类因素,我们又对其中的因素进行了筛选:

a.在表“Mortalityandburdenofdisease”中,我们去掉了“Cause-specificmortalityrate(per100000population)”这一类,因为关于这一类因素,数据表中包含了大量不确定的值,比如"

<

10"

而这些值是无法用于统计分析的。

b.在表“morbidity”中,我们去掉了“No.confirmedcasesofpoliomyelitis”这一项,因为因为关于这一类因素,数据表中包含了大量"

0"

这说明“No.confirmedcasesofpoliomyelitis”这种疾病可能是地区性的,无法用于进行全球国家健康体系的比较。

c.在表“HealthsystemsHRH”,由于我们将要分析的是医疗体系对于个人的保障效果,故不采用表示总体数量的因素,即不采用医疗工作人员的总量,而是其Density。

我们只Densityof保留了“DensityofPhysicians”,“DensityofNurses”,“DensityofDentists”,“Pharmacists”这四项,因为,其余几项的数据不完整。

d.在表“Healthsysteminternationalsexpenditure”中,我们去掉了“Percapitatotalexpenditureonhealthatdollarrate”。

因为关于“Percapitatotalexpenditureonhealthatdollarrate”的数据是通过关于“Percapitatotalexpenditureonhealthataverageexchangerate(US$)”的数据换算得到的,其并非统计数据。

同样地,我们又去掉了“Percapitagovernmentexpenditureonhealthatdollarrate”这一种卫生因素。

另外,在这张表中我们还去掉了“Coverageofvitalregistrationofdeaths”这一种因素,因为关于这一类因素,数据表中包含了大量不确定的值,比如"

25"

筛选结果:

在对卫生水平进行评分时,我们采用的影响卫生水平的因素共有40项。

2.1.2数据加工

对于“Probabilityofdying”“HIVprevalence”这些对于医疗保健体系评价不利的因素,我们将其转化为其负数,再进行主成分分析。

2.2确定衡量卫生水平的综合性指标

确定方法:

利用SPSS,通过主成分分析法确定主成分,所确定的主成分即可以作为代表多个卫生因素的一个综合性指标。

将原有的p个具有相关性的卫生因素xi作线形变换,转换成另一组不相关的yj。

最终确定的主成分的m由原有影响卫生水平的因素的相关系数矩阵R的特征值决定。

我们取大于1的特征值。

2.2.1对分析效果的初步检验

从主成分分析的初始结果,见附表1中发现,我们所提取的这6个主成分共解释了“Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth”这项卫生因素的0.535,而对于“DentistsDensityper1000population”,“PharmacistsDensityper1000population”,“Age-standardizedmortalityratebycause(per100000population)Cancerdiseases”这三项卫生因素的解释分别为0.633,0.598,0.613。

a.我们认为,“NursesDensityper1000population”,“DentistsDensityper1000population”,“PharmacistsDensityper1000population”,都属于医疗工作人员,并且这三种人员的区分并不明确,统计数据就无法准确获得。

因此,我们将这三者的人数加和起来,作为一种卫生因素。

b.关于“Age-standardizedmortalityratebycause(per100000population)Cancerdiseases”这一项统计数据,我们认为目前人类对于癌症的预防,治疗都还没有成熟的认识,因此,各国的医疗保健体系与癌症死亡率的关系也是不明确的。

所以,在精确的模型中,我们将这一种卫生因素删除。

c.对于“Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth”这一项统计数据,我们认为它与各个国家的福利体制是紧密相关的。

因此,各国的医疗保健体系与“”的关系还需要进一步考察该国的福利体制。

在我们的精确模型中,我们将这种卫生因素删除。

2.2.2对分析效果的第二次检验

从改进后的主成分分析初始结果,见附表2中,可以看出,现在我们所提取的这6个主成分对于原有40项卫生因素的解释均达到了64%以上。

根据假设,可以认为,下面我们进行的分析的分析效果是较好的。

而这6个因子对于原有40项卫生因素的解释程度的均值达到了0.890。

2.2.3对主成分分析的结果中ExtractionSumsofSquaredLoadings的讨论

由表1:

ExtractionSumsofSquaredLoadings中可以看出,当我们提取6个主成分后,它们可以描述原变量的89.030%。

另外screeplot也说明了这一点。

该图中,横轴表示主成分个数,纵轴表示特征值。

我们可以从中直观地看出,当我们提取了6个主成分后,基本反映了原始变量的绝大部分方差。

也就是说,我们可以通过这6个主成分作为6个综合性指标,来评价医疗保健体系的平均水平。

表1

ExtractionSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

22.553

62.647

3.633

10.092

72.738

2.206

6.127

78.865

1.374

3.816

82.682

1.254

3.482

86.164

1.032

2.866

89.030

2.3各项综合指标的实际含义

分析方法:

通过分析ComponentMatrix来对各项综合指标的实际含义进行解释。

2.3.1分析结果

第一个主成分y1在Lifeexpectancyatbirth(Male)Lifeexpectancyatbirth(Female)Healthylifeexpectancy(HALE)atbirthMaleHealthylifeexpectancy(HALE)atbirthFemale上载荷的绝对值较大,大小也差不多,都达到了0.9630以上。

所以,我们可以认为这个主成分y1代表了Lifeexpectancy。

第二主成分y2在“”Generalgovernmentexpenditureonhealthas%oftotalgovernmentexpenditure“Percapitatotalexpenditureonhealthataverageexchangerate(US$)”Percapitagovernmentexpenditureonhealthataverageexchangerate(US$)Out-of-pocketexpenditureas%ofprivateexpenditureonhealth上的载荷的绝对值较大,大小也差不多,都达到了0.5000以上。

所以,我们可以认为这个主成分代表了expenditureonhealth。

类似地,可以分析出,第三个主成分y3代表Hospitalbedsper10000population,第四个主成分y4代表privateexpenditureonhealth在第五个主成分y5代表HIVprevalenceamongadults≥15years(per100000population)第六个主成分y6代表Age-standardizedmortalityratebycause(per100000population)Injuriesdiseases。

2.3.2对分析结果中“ExtractionSumsofSquaredLoadings”的合理性的检验

由于通过分析ComponentMatrix得到的第三项综合性指标y3综合指标代表Hospitalbedsper10000population,但是,由这种方法分析出,Hospitalbedsper10000population对平均水平的影响是不利的。

这显然与常识是不符的。

因此,在对各国医疗体系的评价上,我们舍去了这个综合性指标。

因此,我们所选的五项指标即为主成分分析得到的y1,y2,y4,y5和y6所代表的五项综合指标。

2.3.3对五项综合性指标的代表性的验证

⑴数据分析的角度:

通过SPSS软件关于“ExtractionSumsofSquaredLoadings”的输出结果,见表1。

可以看出,代表这几个综合性指标的因子y1,y2,y4,y5和y6对原有变量的方差贡献率分别为62.647,10.092,3.816,3.482和2.866。

从数据分析的角度来看,它们都可以用来帮助评价各国的医疗体系。

⑵实际意义的角度:

①“Lifeexpectancy”可以大致反映一个国家卫生水平的大致效果,

②“expenditureonhealth”可以大致反映维持一个较好的卫生水平所需要的经济代价。

③“HIVprevalenceamongadults≥15years(per100000population”说明了HIV的流行对于一个医疗体系的挑战。

也可以在一定程度上反映了一个医疗体系对于传染病的预防情况。

④“Age-standardizedmortalityratebycause(per100000population)Injuries。

”可以反映除非疾病引起的,即“Injuries”对医疗体系的挑战。

2.4对关于平均水平的综合性指标进行打分,并计算卫生水平得分

2.4.1构造因子得分函数

通过分析ComponentScoreCoefficientMatrix,构造出了因子得分函数

,其中i=1,2,3…40;

j=1…6且j≠3。

即:

因子得分yj就是我们对选定的5个综合性指标打出的分数。

2.4.2计算各国卫生水平的得分Sg

分析SPSS对于“ExtractionSumsofSquaredLoadings”的输出结果,我们可以得到6的个综合性指标对卫生水平的方差贡献率。

以此作为权重,对六项综合指标进行线形组合后,得到卫生水平的得分计算公式:

给进行了数据分析后还剩余的59个国家打分,这59个国家的卫生水平排名见附表3。

3结果与讨论

数据挖掘技术是发现影响世界卫生水平的主要因素的有力工具,由附表3可知经主成分分析后综合得分的排名情况,这可以作为评价各国卫生水平的良好参照。

主成分分析作为数据挖掘的一种方法能够用于世界卫生水平的统计分析。

主成分分析在不损失样本特征值的数量和信息前提下,采用降维模式分类方法,将反映世界卫生水平的多个因素用5个主成分来描述原有数据特征,不仅表明主成分分析确实能够起到降维作用,同时使繁多的求解目标简化,便于数据分析,而且原有信息损失少,可用于世界卫生水平的数据挖掘。

4参考文献

[1]TheWorldHealthStatisticsReport2007,http:

//www.who.int/whosis/whostat2007/en/index.html;

[2]章文波,陈红艳.实用数据统计分析及SPSS12.0应用〔M」.北京:

人民邮电出版社,2006:

65-66

附表1

Communalities

Initial

Extraction

Lifeexpectancyatbirth(Male)

1.000

0.985

Lifeexpectancyatbirth(Female)

0.984

Healthylifeexpectancy(HALE)atbirthMale

0.982

Healthylifeexpectancy(HALE)atbirthFemale

0.980

Probabilityofdyingaged15–60yearsper1000population(adultmortalityrate)Male

0.956

Probabilityofdyingaged15–60yearsper1000population(adultmortalityrate)Female

0.979

Probabilityofdyingaged<

5yearsper1000livebirths(under-5mortalityrate)Bothsexes

0.941

Infantmortalityrate(per1000livebirths)Bothsexes

0.937

Neonatalmortalityrate(per1000livebirths)Bothsexes

0.931

Maternalmortalityratio(per100000livebirths)Female

0.898

Age-standardizedmortalityratebycause(per100000population)Non-communicablediseases

0.936

Age-standardizedmortalityratebycause(per100000population)Cardio-vasculardiseases

0.946

Age-standardizedmortalityratebycause(per100000population)Cancerdiseases

0.613

Age-standardizedmortalityratebycause(per100000population)Injuriesdiseases

0.813

DistributionofYLLbybroadercausesh,j,k(%)Communicablediseases

0.961

DistributionofYLLbybroadercausesh,j,k(%)Non-communicablediseases

Distribitionofcausesofdeathamongchildrenaged<

5years(%)Neonatal

0.811

5years(%)HIV/AIDS

0.884

5years(%)Diarrhoeal

0.906

5years(%)Measles

0.701

5years(%)Malaria

0.647

5years(%)Pneumonia

0.915

5years(%)Injuries

0.792

HIVprevalenceamongadults≥15years(per100000population)

TBprevalence(per100000population)

0.835

TBincidence(per100000population)

0.832

PhysiciansDensityper1000population

0.860

NursesDensityper1000population

0.882

DentistsDensityper1000population

0.633

PharmacistsDensityper1000population

0.598

Totalexpenditureonhealthas%ofGDP

0.794

Generalgovernmentexpenditureonhealthas%oftotalexpenditureonhealth

0.788

Generalgovernmentexpenditureonhealthas%oftotalgovernmentexpenditure

0.753

Externalresourcesforhealthas%oftotalexpenditureonhealth

0.734

Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth

0.535

Out-of-pocketexpenditureas%ofprivateexpenditureonhealth

0.836

Privateprepaidplansas%ofprivateexpenditureonhealth

0.859

Percapitatotalexpenditureonhealthataverageexchangerate(US$)

0.920

Percapitagovernmentexpenditureonhealthataverageexchangerate(US$)

0.942

Hospitalbedsper10000population

0.874

ExtractionMethod:

P

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1