计量资料.docx
《计量资料.docx》由会员分享,可在线阅读,更多相关《计量资料.docx(18页珍藏版)》请在冰豆网上搜索。
计量资料
计量地理学复习资料
一、名解(7*2)
1、地理学:
是研究地理环境及其与人类活动相互关系的一门学科体系。
2、计量地理学:
是将数学和电子计算机技术应用于地理学的一门新兴学科,是随着生产发展与科技进步而产生与发展起来的。
3、现代地理学,定性与定量相结合,规范研究与实证研究并举,解释各种地理现象的内在机制并预测其未来演变。
4、空间数据:
用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。
5、属性数据:
用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。
6、间隔尺度数据:
以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
7、比例尺度数据:
以无量纲的数据形式表示测度对象的相对量。
8、二元数据:
用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
9、众数:
出现频数最多的那个数。
10、集中化指数:
是一个描述地理数据分布的集中化程度的指数。
11、回归分析:
研究要素之间具体数量关系的一种有力的工具,运用这种方法能够建立地理要素之间具体数量关系的数学模型,即回归模型。
12、季节变动:
是时间序列在一年中或固定时间内呈现出的固定规则的变动。
13、主成分分析:
是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看这是一种降维技术。
14、自相关:
确定某一变量是否在空间上相关,其相关程度如何。
15、秩相关系数:
又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
自相关系数:
是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。
16、时间序列:
是要素(变量)的数据按照时间顺序变动排列而形成的一种数列,它反映了要素(变量)随时间变化的发展过程。
17、地理网络图:
在现实地理系统中,对于地理位置、地理实体、地理区域以及它们之间的相互联系,可以经过一定的简化与抽象,将它们描述为图论意义下的地理网络,即图。
18、变异系数:
表示地理数据相对变化的程度
19、峰度系数:
测度了地理数据在均值附近的集中程度。
20、偏度系数:
测度了地理数据分布的不对称性情况,刻画了以平均值为中心的偏向情况。
21、洛伦兹曲线:
使用累计频率曲线研究工业化的集中化程度。
22、偏相关系数:
在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。
用以度量偏相关程度的统计量,称为偏相关系数。
23、有序数据:
当测度标准不是连续的量,而是只是表示其顺序关系的数据则称为有序数据或等级尺度数据。
24、相关分析:
是揭示地理要素之间相互关系的密切程度。
25、相关系数:
是两要素之间的相关程度的统计指标。
26、聚类分析:
亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。
27、洛伦兹曲线:
使用累计频率曲线研究工业化的集中化程度
28、季节变动系数:
是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。
29、离差:
指每一个地理数据与平均值的差
30、基尼系数:
是通过对人口和收入两组数据进行比较分析,然后将横、纵坐标均以累计百分比表示,做出洛伦兹曲线,在计算集中化指数而得到的一个判断收入分配不平等程度的指标。
二、填空题(26*1)
1、计量地理学的发展阶段
第一阶段(20世纪50年代末到60年代末期)初期阶段
第二阶段(20世纪60年代末期到70年代末期)中期阶段
第三阶段(20世纪70年代末期开始到80年代末期)成熟完善阶段
第四阶段(20世纪90年代初至今)有传统意义上的计量地理学开始向计量地理学发展。
2、地理学的发展可划分为三个基本阶段:
古代地理学,以记载地理知识为主体;
近代地理学,对各种地理现象进行条理化归纳,并对它们之间的关系进行解释性描述;
现代地理学,采用定性与定量相结合的方法,规范研究与实证研究并举,解释各种地理现象的内在机制并预测其未来演变。
3、近代地理学有三种主要学派:
区域学派,代表人物是赫特纳、哈特向。
人地关系学派,代表人物是洪堡、李特尔、李希霍芬等。
景观学派,代表人物是施吕特尔(O.Schlüter)等。
4、计量地理学的研究对象:
空间与过程的研究、生态研究、区域研究
研究内容:
1,分布规律性2,要素分析3,过程分析4,地理系统模拟预测和规划
数学方法
用途
概率论
用于地理现象、地理要素的随机分布研究。
抽样调查
用于地理数据的采集和整理。
相关分析
分析地理要素之间的相关关系。
回归分析
拟合地理要素之间的数量关系、预测发展趋势。
方差分析
研究地理数据分布的离散程度。
时间序列分析
用于地理过程时间序列的预测与控制研究。
主成分分析
用于地理数据的降维处理及地理要素的因素分析与综合评价。
聚类分析
用于各种地理要素分类、各种地理区域划分。
在现代地理学中,传统方法是数学方法的基础,数学方法是传统方法的重要补充。
现代地理学中数学方法的形成和发展与计算机应用技术密切相关。
5、空间数据:
用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。
空间数据的表示:
点、线、面及点、线、面之间的拓扑关系。
6、属性数据:
数量标志数据
①间隔尺度数据:
以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
②比例尺度数据:
以无量纲的数据形式表示测度对象的相对量。
品质标志数据
①有序数据:
当测度标准不是连续的量,只是表示其顺序关系的数据。
②二元数据:
用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
③名义尺度数据:
用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。
7、地理数据的基本特征
(1)数量化、形式化与逻辑化
(2)不确定性(3)多种时空尺度(4)多维性
8、相关分析的基本类型:
(1)线性相关分析(包括:
正相关、负相关、零相关)
(2)偏相关分析(3)距离分析(4)秩相关(5)自相关(6)偏相关(7)复相关分析
9、统计分组:
根据研究目的,按照一定的分组标志将地理数据分成若干组
统计分组的基本步骤:
:
1,找出原始数据中最大值,最小值,并求距
2,把全距(极差)按组的宽度一致性原则恰当分组,即确定组数,组距,组限,组中值
3,求出落在每个组距中观察值数目,即求出组频数和频率
4,绘制频率分布图,有三种形式,即直方图,频数多边形图,和统计频数分布曲线
10、描述地理数据一般水平的指标:
平均值、中位数、众数
极差:
指所有数据中最大值与最小值之差
离差:
指每一个地理数据与平均值的差
离差平方和:
它从总体上衡量一组地理数据与平均值的离散程度,
方差与标准差:
方差是从平均概况衡量一组地理数据与平均值的离散程度。
变异系数:
变异系数表示地理数据的相对变化(波动)程度
偏度系数:
测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况
峰度系数:
它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数g2=0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布
11、洛伦茨曲线:
使用累计频率曲线研究工业化的集中化程度。
绘制罗伦次曲线
(1)将各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;
(2)从大到小,逐次计算累计百分比;
(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即罗伦次曲线。
12、基尼系数:
就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。
相关分析的任务,是揭示地理要素之间相互关系的密切程度。
相关系数的检验:
相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。
检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。
秩相关系数:
又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
偏相关系数:
在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。
用以度量偏相关程度的统计量,称为偏相关系数。
偏相关系数的性质:
①偏相关系数分布的范围在-1到1之间;
②偏相关系数的绝对值越大,表示其偏相关程度越大;
③偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。
复相关系数:
反映几个要素与某一个要素之间的复相关程度。
13、长期趋势(T):
是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。
循环变动(C):
是指沿着趋势线如钟摆般地循环变动,又称景气循环变动
不规则变动(I):
是指在时间序列中由于随机因素影响所引起的变动。
季节变动(S):
是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。
自相关系数:
时间序列的自相关,是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。
14、在聚类分析中,常用的聚类要素的数据处理方法有如下几种:
①总和标准化。
分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和
②标准差标准化:
由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1
③极大值标准化,经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
④极差的标准化,经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
直接聚类法原理
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。
如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。
每一次归并,都划去该对象所在的列与列序相同的行。
经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
最短距离聚类法原理
最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出minDij,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式Drk=min(Dpk,Dqk),计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
15、线性规划研究的两类问题:
1、某项任务确定后,如何统筹安排,以最少的人力、物力和财力去完成该项任务;
2、面对一定数量的人力、物力和财力资源,如何安排使用,使得完成的任务最多。
它们都属于最优规划的范畴。
16、、距离的计算方法:
直接聚类、最短距离聚类、最远距离聚类法
17、常见的距离有:
①绝对值距离②欧氏距离③明科夫斯基距离④切比雪夫距离
18、聚类要素的数据标准化处理方法:
(具体见82-83页)
①总和标准化②标准差标准化③极大值标准化④极差的标准化
19、时间序列的组合成分:
长期趋势、季节变动、循环变动、不规则变动
20、时间序列的组合模型:
加法模型、乘法模型
三、简答题(5*8)
1、地理数据的渠道来源
①来自于观测、测量部门的有关专业数据。
②来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。
③来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。
④来自于政府公报、政府文件中的有关数据。
⑤来自于档案、图书等文献资料中的有关数据。
⑥来自于互联网(internet)的有关共享数据。
⑦来自地图图件。
主要包括各种比例尺的地形图、影像地图、专题地图等。
⑧来自遥感数据。
主要包括各种航空遥感数据和卫星遥感数据。
⑨其他来源的有关数据。
2、统计整理的基本步骤:
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。
③作分布图。
3、统计分组的基本步骤:
①求全距(极差)R=Xmax—Xmin
②确定组数
③确定组距
④确定组限
⑤计算组中值
4、洛伦兹曲线:
使用累计频率曲线研究工业化的集中化程度。
结果分析:
罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。
上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。
如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。
5、相关分析与回归分析的联系与区别:
回归分析主要是研究如何根据自变量X的已知值来估计或预测因变量Y的值;
Ø回归分析和相关分析都是对多个变量之间依存关系的分析。
只有存在相关的变量才能进行回归分析,相关程度愈高,回归效果越好。
Ø相关分析与回归分析的不同点:
•相关分析是研究变量之间的依存关系,但不区分哪个是自变量,哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且要根据研究对象和目的,确定哪个是自变量(解释变量),哪个是因变量(被解释变量);
相关分析主要是研究变量之间关系的密切程度和变化的方向;而回归分析要通过建立回归模型和控制自变量来进行估计和预测。
6、统计假设检验的基本步骤
㈠根据研究需要提出原假设和备选假设
㈡确定适当的检验统计量
㈢确定显著性水平α和临界值及拒绝域
㈣根据样本数据计算检验统计量的值(或P值)
㈤将检验统计量值与临界值比较,作出拒绝或接受原假设的决策
7、地理数据有哪几种类型?
空间数据:
用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。
空间数据的表示:
点、线、面以及点、线、面之间的拓扑关系。
属性数据:
用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。
数量标志数据
①间隔尺度数据:
以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
②比例尺度数据:
以无量纲的数据形式表示测度对象的相对量。
品质标志数据
①有序数据:
当测度标准不是连续的量,只是表示其顺序关系的数据。
②二元数据:
用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
③名义尺度数据:
用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。
8、回归分析步骤:
(1)预测目标,确定自变量和因变量;
明确预测的具体目标,也就确定了因变量。
(2)建立回归预测模型;
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
(3)进行相关分析;
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。
只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
(4)检验回归预测模型,计算预测误差;
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。
回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
(5)计算并确定预测值;
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
9、趋势拟合方法:
(一)平滑法
平滑法主要有三类:
移动平均法,滑动平均法,指数平滑法。
(二)趋势线法
三种最常用的趋势线:
直线型趋势线,指数型趋势线,抛物线型趋势线。
(三)自回归模型
10、季节性变动预测的基本步骤:
(1)对原时间序列求移动平均,以消除季节变动和不规则变动,保留长期趋势;
(2)将原序列y除以其对应的趋势方程值(或平滑值),分离出季节变动(含不规则变动),即:
季节系数=TSCI/趋势方程值(TC或平滑值)=SI
(3)将月度(或季度)的季节指标加总,以由计算误差导致的值去除理论加总值,得到一个校正系数,并以该校正系数乘以季节性指标从而获得调整后季节性指标。
(4)求预测模型,若求下一年度的预测值,延长趋势线即可;若求各月(季)的预测值,需以趋势值乘以各月份(季度)的季节性指标。
11、聚类分析基本原理(意义):
用数学方法按照某种相似性或差异性指标,定量的确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
聚类要素的数据处理方法:
(具体见82-83页)
①总和标准化②标准差标准化③极大值标准化④极差的标准化
常见的距离有:
①绝对值距离②欧氏距离③明科夫斯基距离④切比雪夫距离
12、主成分分析的计算步骤:
(1)计算相关系数矩阵;
(2)计算特征值与特征向量;
(3)计算主成分贡献率及累计贡献率;
(4)计算主成分载荷。
3、线性规划研究的两类问题:
1、某项任务确定后,如何统筹安排,以最少的人力、物力和财力去完成该项任务;
2、面对一定数量的人力、物力和财力资源,如何安排使用,使得完成的任务最多。
它们都属于最优规划的范畴。
线性规划的应用:
运输问题、资源利用问题、合理下料问题
四、计算题(20分)
1、最短路径:
最短路径的含义:
1“纯距离”意义上的最短路径
2“经济距离”意义上的最短路径
3“时间”意义上的最短路径
最短路径的算法:
即标号法
1标号法优点:
不仅可以求出起点到终点的最短路径及其长度,而且可以求出起点到其他任何一个顶点的最短路径及其长度;同时适用于求解有向图或无向图上的最短路径问题
2标号法具体计算步骤:
开始,先给v1标上P标号P(v1)=0,其余各点标上T标号T(vj)=+∞(j≠1)
1如果刚刚得到P标号的点是vi,那么,对于所有这样的点
将其T标号修改为:
min[T(vj),P(vi)+wij]。
②若G中没有T标号,则停止。
否则,把点的T标号修改为P标号,然后再转入①。
其中,满足
例题:
在图10.2.1所示的赋权有向图中,每一个顶点vi(i=1,2,…,n)代表一个城镇;每一条边代表相应两个城镇之间的交通线,其长度用边旁的数字表示。
试求城镇v1到v7之间的最短路径
解:
首先给v1标上P标号P(v1)=0,表示从v1到v1的最短路径为零。
其他点(v2,v3,…,v7)标上T标号T(vj)=+∞(j=2,3,…,7)。
第1步:
①v1是刚得到P标号的点。
因为(v1,v2),(v1,v3),(v1,v4)∈E,而
且v2,v3,v4是T标号,所以修改这3个点的T标号为:
T(v2)=min[T(v2),P(v1)+w12]=min[+∞,0+2]=2T(v3)=min[T(v3),P(v1)+w13]=min[+∞,0+5]=5T(v4)=min[T(v4),P(v1)+w14]=min[+∞,0+3]=3②在所有T标号中,T(V2)=2最小,于是令P(V2)=2。
第2步:
①v2是刚得到P标号的点。
因为(v2,v3),(v2,v6)∈E,而且v3,v6是T
标号,故修改v3和v6的T标号为T(v3)=min[T(v3),P(v2)+w23]=min[5,2+2]=4T(v6)=min[T(v6),P(v2)+w26]=min[+∞,2+7]=9
②在所有的T标号中,T(v4)=3最小,于是令P(v4)=3
第3步:
①v4是刚得到P标号的点。
因为(v4,v5)∈E,而且v5是T标号,故修
改v5的T标号为:
T(v5)=min[T(v5),P(v4)+w45]=min[+∞,3+5]=8②在所有的T标号中,T(v3)=4最小,故令P(v3)=4
第4步:
①v3是刚得到P标号的点。
因为(v3,v5),(v3,v6)∈E,而且v5和v6
为T标号,故修改v5和v6的T标号为T(v5)=min[T(v5),P(v3)+w35]=min[8,4+3]=7T(v6)=min[T(v6),P(v3)+w36]=min[9,4+5]=9②在所有的T标号中,T(v5)=7最小,故令P(v5)=7
第5步:
①v5是刚得到P标号的点。
因为(v5,v6),(v5,v7)∈E,而且v6和v7
都是T标号,故修改它们的T标号为T(v6)=min[T(v6),P(v5)+w56]=min[9,7+1]=8T(v7)=min[T(v7),P(v5)+w57]=min[+∞,7+7]=14②在所有T标号中,T(v6)=8最小,于是令:
P(v6)=8
第6步:
①v6是刚得到P标号的点。
因为(v6,v7)∈E,而且v7为T标号,故修改
它的T标号为:
T(v7)=min[T(v7),P(v6)+w67]=min[14,8+5]=13②目前只有v7是T标号,故令:
P(v7)=13
故从城镇v1到v7之间的最短路径为(v1,v2,v3,v5,v6,v7),最短路径长度为13
2、选址问题:
(一)中心点选址问题
1中心点选址问题的质量判据:
使最佳选址位置所在的顶点的最大服务距离为最小
2中心点选址问题的数学描述:
设G=(V,E)是一个无向简单连通赋权图,连接两个顶点的边的权值代表它们之间的距离,对于每一个顶点vi,它与各个顶点之间的最短路径长度为di1,di2,…,din。
这些距离中的最大数称为顶点vi的最大服务距离,记为e(vi)。
那么,中心点选址问题,就是求网络图G的中心点,使得
例题:
假设某县下属的6个乡镇及其之间公路联系如图所示。
每一顶点代表一个乡镇;每一条边代表连接两个乡镇之间的公路,每一条边旁的数字代表该条公路的长度。
现在要设立一个消防站,为全县的6个乡镇服务。
试问该消防站应该设在哪一个乡镇(顶点)?
解:
第1步:
用标号法求出每一个顶点vi至其他各个顶点vj的最短路径长度dij(i,j=1,2,…,6),并将它们写成如下的距离矩阵:
第2步:
求每一个顶点的最大服务距离。
显然,它们分别是矩阵D中各行的最大值,即:
e(v1)=6,e(v2)=7,e(v3)=6,e(v4)=7,e(v5)=6,e(v6)=7。
第3步:
判定。
因为e(v1)=e(v3)=e(v5)=min{e(vi)}=6,所以v1,v3,v5都是中心点。
也就是说,消防站设在v1,v3,v5中任何一个顶点上都是可行的
(二)中位点选址问题
1中位点选址问题的质量判据:
使最佳选址位置所在的顶点到网络图中其他各个顶点的最短路径距离的总和(或者以各个顶点的载荷加权求和)达到最小
2中位点选址问题的数学描述
设G=(V,E)是一个简单连通赋权无向图,连接两个顶点的边的权值为该两顶点之间的距离;对于每一个顶点vi(i=1,2,…,n),有一个正的负荷a(vi),而且它与其他各顶点之间的最短路径长度为di1,di2,…,din。
那么,中位点选址问题,就是求图G的中位点,使得
例题:
某县下属7个乡镇,各乡镇所拥有的人口数a(vi)(i=1,2,…,7),以及各乡镇之间的距离wij(i,j=1,2,…,7)如图所示。
现在需要设立一个中心邮局,为全县所辖的7个乡镇共同服务。
问该中心邮局应该设在哪一个乡镇(顶点)?
解:
第1步:
用标号法求出每一个顶点vi至其他各个顶点vj的最短路径长度dij(i,j=1,2,…,7),并将其