美赛论文c题论文.doc
《美赛论文c题论文.doc》由会员分享,可在线阅读,更多相关《美赛论文c题论文.doc(19页珍藏版)》请在冰豆网上搜索。
基于主成分-有向复杂网络的地球健康的评价及动态预测
摘要
地球是一个庞大而复杂的生态系统,评价并预测其健康状况一直是一个难题。
本文建立了分析各国家(节点)健康状况的主成分分析模型;基于生态系统的复杂性,进一步构建了一个反映各节点间交互影响的有向复杂网络模型;进而采用灰色预测模型对地球健康状况进行动态预测。
(1)计算每个节点的健康指数。
因为地球上的国家较多和地球健康指数影响指标较多,本文选取21个国家作为分析地球的节点、11个地球健康指标。
采用主成分分析法对21个节点以及全球的11个指标进行综合分析,把11个指标抽象成5个主成分进行健康指数的求解。
我们以2000年的进行验证,结果显示五个主成分的累积贡献率高达92%,结果可靠。
我们同时对各个节点的综合值Z(健康指数)进行排名,排名靠前的是美国、澳大利亚、加拿大等发达国家,排名靠后的是Morocco、EgyptArabRep.China、Kenya等发展中国家且生态保护较差的国家。
(2)分析节点间的交互影响。
建立有向复杂网络来考虑各节点间的相互影响,选取8个典型国家来构成类似生物圈的“小世界”,用8个国家节点的健康指数进行逐步回归来确定网络的边和权重。
在考察网络的基本特征参数后,通过边的权重来求得各节点的权重值。
最后我们用修正后的网络加权模型和主成分分析模型结果对比,二者相互验证,说明模型的合理性。
最后将模型推广到地球生态系统。
(3)未来地球健康状况的动态预测。
我采用灰色预测中的GM(1,1)模型对世界的健康指数进行10年的动态预测,预测结果的相对误差小于5%,预测精度较高。
预测的十年结果见表11。
对于模型的预警,我们通过给定健康指数的最低值a作为临界点,把GM(1,1)预测的结果与a比较,小于a则就警报。
对于a的确定可以查找本文中11个指标的限定,通过限定值确定a的大小。
对于政策的影响,我们选取中国和世界的人口增长率为对象进行了分析,证明政策对地球生态有一定的潜在影响。
关键词健康指数有向复杂网络主成分分析逐步回归动态预测
一、问题重述
本题目要求建立一个全球网络,该网络一方面能建立一个全球模型来改进生物预测,这个模型要能反映由于地球上各系统间的交叉影响而带来的复杂性,以及地区条件和全球系统之间的相互影响,指明如何有效使用生态系统管理来防止或减少这些迫近的变化,并为政策制定者提供建议。
同时,尽管许多警示性的信号已经出现,但没人知道地球是否已经在全球范围内逼近了临界点,以及这样一个极端的状态是否是不可避免的,题目要求我们建立的模型能预测生态健康的临界点,并为阻止达到这个临界点提供意见。
要求1:
通过确定影响地球健康某一方面的本土因素,即网络节点,分析其关系和属性,通过恰当的方式将这些节点连起来,在此基础上建立一个动态的全球网络模型。
明确定义模型中的所有要素并且解释你在建模过程中界定网络建构考量因素、节点实体和链接特性的科学依据。
要求2:
要求预测未来的地球健康,并通过数据进行验证、评估。
同时注意模型中是否有人为因素,该模型是否能预测地球状态的变化或临界点。
还要求出本地发生变化时引起的全球的变化。
要求3:
所建立的模型能识别网络中的关键点,并且在节点缺失时能感知,有一定的灵敏度,能在全球的生态健康方面发挥预警作用。
要求4:
拟定一篇20页的报告(不包括总结页)来解释所建的模型与其应用前景。
确保指出模型的优点和缺点。
二、模型假设
1所查到的数据真实可靠。
2所使用的11个因素涵盖了影响生态系统健康的所有方面。
3在预测的时间段内,世界不会发生极大影响生态系统健康的突发性事件。
4对于部分缺失的数据,所填补是公平合理的,不影响总体。
5模型基于的规则是完全公平的。
6模型建立的过程中所有选择的国家都是具有代表性的,可以带表整体的特性。
三、符号说明
符号
含义
Z
健康指数
标准化后指标值
指标的取值
p
R
主成分数
标准化后的健康值
相关系数矩阵
Ci
Ki
B,Y
a
聚类系数
节点i的邻接点
数据矩阵
健康指数的临界值
注:
部分未说明的符号在模型会给与介绍。
四、问题分析
根据对题目的分析,我们知道题目要求我们考虑地球上各系统间的交叉影响的复杂性及地区条件和全球系统之间的影响,建立一个动态的全球网络模型,明确节点的实体和节点间的链接特性,根据地区条件变化引起全球变化提供预警,并能预测未来地球健康状况的变化,为政策制定者提供有效的政策。
针对问题,以国家为节点,根据生态学选取地球健康因子,在世界银行数据库中查得所需的数据。
具体分析思路如下:
(1)根据所查的数据求出各个节点及世界的健康指数。
可以通过主成分分析法对所取20年的数据进行综合评价;
(2)接着,求解各节点间的影响及内部的相互作用。
在主成分分析的基础上,因为数据量较大,在21个国家中挑选出8个国家来构成“小世界”作为真实世界的模拟。
对于选出来的8个国家,将他们构成有向复杂网络来考虑各节点间的影响及内部的相互作用。
(3)对未来健康状况的预测。
根据全球1991年到2010年的健康指数,以20年的数据为基础,采用GM(1,1)进行预测,并提出预警情况。
五、模型的建立与求解
5.1节点和指标的选取
(1)节点的选取
考虑地理位置和国家发展状况,选取了21个典型的国家,这21个国家可以代表全球。
选取的21个国家:
Argentina,Australia,Brazil,Canada,China,Egypt,ArabRep.,France,Germany,Iran,IslamicRep.,Israel,Italy,Japan,Kazakhstan,Kenya ,Morocco,NewZealand,RussianFederation,Saudi,Arabia,SouthAfricaUnited,Kingdom,UnitedStates。
(2)指标的选取[1,2]
地球是一个大生态系统,我们根据文献[3]选取了11个地球健康的指标,如下表所示:
表1地球健康指标
地球健康
社会因素
城镇人口比重(%)
人均耕地面积(公顷)
高等院校入学率(%)
经济因素
人均GDP(美元)
每千美元的能源消耗量(千克石油当量)
环境因素
CO2排放量(人均公吨数)
颗粒污染程度(每立方米微克)
人均能源使用量(千克石油当量)
人的因素
人口密度(每平方公里)
人口增长(%)
五岁以下婴儿死亡率(%)
选取21个国家11个指标的时间区间:
[1991-2010]年;数据的来源:
世界银行数据库[4]
5.2主成分分析模型的建立与求解
5.2.1主成分分析法的步骤
1)对原始数据进行标准化处理
假设进行主成分分析的指标变量有m个:
,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,
其中,
即,,为第j个指标的样本均值和样本标准差。
对应地,称为标准化指标变量。
2)计算相关系数矩阵R
相关系数矩阵
式中=1,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量
计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量
式中,是第1主成分,是第2主成分,…,是第m主成分。
4)选择p()个主成分,计算综合评价值
①计算特征值的信息贡献率和累积贡献率。
称
为主成分的信息贡献率;称
为主成分的累积贡献率,当接近于1时,则选择前p个指标变量,作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。
②计算综合得分
定义:
Z为健康指数,表示健康状况的综合评价值
5.2.2模型的求解
以2000年的数据为例,我们选取5个主成分即令p=5,
利用MATLAB软件对11个评价指标进行主成分分析,相关系数矩阵的前几个特征根及其贡献率如表2。
表2主成分分析结果
序号
特征根
贡献率
累积贡献率
1
5.2218
47.4705
47.4705
2
2.1995
19.9958
67.4663
3
1.2675
11.5227
78.9890
4
0.7369
6.6991
85.6880
5
0.6986
6.3505
92.0385
6
0.3396
3.0873
95.1258
可以看出,前四个特征根的累计贡献率就达到85%以上,主成分分析效果很好。
下面我们选取五个主成分(累计贡献率就达到92%)进行综合评价。
前五个特征根对应的特征向量见表3。
表3标准化变量的前4个主成分对应的特征向量
第1特征向量
第2特征向量
第3特征向量
第4特征向量
第5特征向量
1
0.3775
0.3566
0.3763
-0.1293
-0.2234
2
-0.2237
-0.0496
0.2021
0.4985
-0.0598
3
0.0420
0.2146
0.1964
-0.2126
0.5592
4
0.3196
-0.4443
0.3221
0.4191
-0.0334
5
0.1640
-0.0233
-0.0179
-0.3379
-0.6483
6
-0.2654
0.5122
-0.0411
0.4827
-0.2919
7
-0.0768
0.1891
-0.3317
0.2333
0.0738
8
0.0144
-0.3248
-0.1567
0.0767
0.2092
9
0.4409
0.4558
-0.1574
0.1030
0.2607
10
0.4813
-0.0075
0.2345
0.2786
0.0302
11
-0.4173
0.1223
0.6774
-0.1347
0.0955
注:
竖列的1,2…,11表示标准化后的11个数据,即,…,。
由此得到五个主成分:
从主成分的系数可以看出,第一主成分主要反映了人均GDP、人口密度、高等院校入学率、人均耕地面积的信息;第二主成分主要反映了人均GDP、每千美元的能源消耗量、CO2排放量、人口增长、人口密度;第三主成分主要反映了人均GDP、每千美元的能源消耗量、五岁以下婴儿死亡率、人均耕地面积;第四主成分主要反映了城镇人口比重、每千美元的能源消耗量、颗粒污染程度、CO2排放量;第五主成分主要反映了人均能源使用量和颗粒污染程度。
综上可以看出人均GDP、每千美元的能源消耗量、五岁以下婴儿死亡率的影响相对较大一些。
把各节点的原始11个指标的标准化数据代入五个主成分的表达式,就可以得到各地区的五个主成分值。
分别以五个主成分的贡献率为权重,构建主成分综合评价模型:
(1)
把各节点的五个主成分值代入式
(1),可以得到各地区高教发展水平的综合评价值以及排序结果如表4
表42000年的21个国家和世界的健康指数
节点
USA
AUS
CAN
NZL
RUS
JPN
排名
1
2
3
4
5
6
Z
2.054
2.039
1.968
0.724
0.539
0.529
节点
GBR
FRA
DEU
ISR
SAU
ITA
排名
7
8
9
10
11
12
Z
0.495
0.429
0.418
0.291
0.195
0.075
节点
ARG
KAZ
ZAF
BRA
IRN
WLD
排名
13
14
15
16
17
18
Z
-0.075