1、122865230.19青岛市2986.814012.802279055208452795978635227239218006.60淄博市1568.171492.0820554526668718813330889420413801.24枣庄市645.08643.27137201585018668662523877591830.63东营市593.72874.592071319335252078133398344863250.20烟台市2158.682117.761875816059731610734332956360845613.87潍坊市1830.391690.1916707810214904
2、4855628386235304420.70济宁市1534.111292.86150828301581121626227956103823501.54泰安市1066.391162.821816230689104463192820164162790.70威海市1082.181033.2928010920187781849331442174392549.69日照市486.57584.381489852991823153142509046981500.16莱芜市257.75237.9515204121345636737291794094653.48临沂市1789.761428.64969030870
3、12683620430317237393336.81德州市1007.42885.381364121472940543224812122622460.59聊城市851.80820.571230416302150256232608793332365.87滨州市664.90838.611724230399249478542836365012155.73菏泽市1027.75681.50108272181884516321236159352050.01 对上述指标进行描述统计,并作出条形图如下。表2-2描述统计量N极小值极大值和均值标准差方差社会消费品零售总额(亿元)1722294.831311.460
4、6784.74794615829.334第三产业增加值(亿元)22688.931334.6429938.35135880503.248居民消费水平(元)9690.0028010.00293359.0017256.41184978.0940524781420.38212134.00552084.001405315.0082665.5882128489.8251116509635155.75784.0081121.00280099.0016476.411823575.04409555782704.0075163.009786.00119697.007041.00001325.57752175715
5、5.75021236.0035648.00495010.0029118.23533974.6751115798042.1914094.0042041.00260906.0015347.411811212.45613125719172.382各市生产总值(亿元)55518.013265.76531775.481963152336.206有效的 N (列表状态) 图2-1条形图从图2-1中可以直观地看出,各指标的发展都最大值和最小值之间的差距显著,从表2-2描述统计量表还中可以看出,各指标的标准差都较大,也说明各指标的在山东省各地市的发展不均衡。第二章数据分析 2.1 因子分析2.1.1 因子分析
6、介绍因子分析是主成分分析的推广,由1904年查尔斯斯皮尔曼对学生考试成绩的研究的来,他利用降维思想由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种变量统计方法,其出发点是原始变量的相关矩阵。原始变量可以分解为两部分之和的形式,一部分是少数几个不可测的公因子的线性函数,另一部分是与公共因子无关的特殊因子。在因子分析中得出的因子表达式之后,可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间定位出样品点,达到分类的目的。2.1.2 因子分析的应用将收集的资料导入数据分析软件SPSS19.0,通过计算得出以下图表数据。表2.1
7、-1描述统计量根据表2.1-1描述统计量可以对衡量山东省各地市发展的各个指标进行大致的了解,获得各个指标在各区县的均值和标准差,以及各指标的样本个数。相关矩阵相关1.000.950.395.737.608.525.615.611.931.504.878.562.643.697.490.966.451.147.760.744.196.472.546.627.550.349.843.350.301.293.620.764.401.654.329.696.582从原始数据计算得到的相关矩阵可以看出,原始数据大部分变量的相关系数都大于0.3,因此所搜集的原始数据适合采用因子分析的方法。KMO 和 Ba
8、rtlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。Bartlett 的球形度检验近似卡方154.091df36Sig.000KMO和Bartlett的检验表明,KMO用于观测相关系数值和偏相关系数值的一个指标,KMO值越大,因子分析的相关性越强,越适合于作公共因子分析,并且因子分析的结果越好,表2.1-3显示KMO=0.6270.5,说明原始数据适合做做因子分析;Bartlett的球形检验P值为0.0000.05,也说明原始数据适合做因子分子。从上面的三个方面来看,都说明,影响山东省区域经济的各指标适合做因子分析,本节采用的方法是有效可行的。2.1-4解释的总方差成
9、份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %15.77764.1844.03344.81321.29714.41378.5983.04133.7853.7598.43987.0364.4755.27692.3125.3243.59895.9106.2082.31498.2257.1151.28399.5088.04199.9599.004100.000提取方法:主成份分析。从表2.1-4可以得知,选取的两个主成分F1、F2的方差占全部方差的比例为78.598%,选取的主成分能够解释选取的9个变量的绝大部分,基本上是对原来指标的信息保留,并且将原指标的9个维度降为了2维,利于分
10、析。旋转成份矩阵a.891.333.867.833.486.771.018.740.442.631.137.080.933.353.839.837提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。表2.1-5为旋转成分矩阵(Rotated Component Matrix),也为载荷矩阵,是一个系数矩阵,原变量可由各因子表示,如:X1=0.891F1+0.333F2,其矩阵模式为X=AF其中:X=为标准化原始变量,A=,F= 。以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分F公式为:F=(44.8
11、13F1+33.785F2)/78.598山东省各市因子得分和综合得分表如下表2.1-6 主因子得分和综合得分表 区域名称F1F2F0.489181.414010.89942 2.34580 1.31111 1.163570.271320.536980.38551 -0.71286-0.45272-0.60104 -1.165831.25005 -0.127371.248580.14827 0.775620.901520.149060.578081.03808-1.08198 0.12678-0.585030.06073 -0.30745-0.977941.701710.17390 -0.65
12、742-0.78053-0.71034-1.306750.07190-0.71245 0.63054-0.94682 -0.04748-0.23276-0.96056 -0.54560-0.34936-0.88910 -0.58136-0.924790.41398-0.34933 -0.01219-1.64798-0.71533 图2.1-1 各城市因子得分图通过图2.1-1以及对山东省各地市的了解,可以将山东省的区域经济划分为以下几类,如表2.1-7山东省各地市聚类(因子分析)所示。表2.1-7 山东省各地市聚类(因子分析)地区类别城市第一类地区第二类地区济南市、烟台市、潍坊市、济宁市、威海
13、市第三类地区淄博市、枣庄市、东营市、泰安市、日照市、莱芜市、临沂市、德州市、聊城市、滨州市、菏泽市从因素分析的结果来看,旋转后的因子载荷矩阵,公因子F1在社会消费品零售总额、各市生产总值、第三产业增加值、各市境外投资、各市外商直接投资和各市地方交通旅客运输量上的载荷值很大,因此F1是这六个全市经济指标的综合反映;公因子F2在居民消费水平、城镇居民人均可支配收入、农村居民人均全年生活消费总支出上的载荷值远远高于其他指标,这说明F2综合反映的是居民个人经济生活水平。结合各个区县在公共因子和总得分情况,对山东省各市的发展情况进行评价。在经济方面综合指标F1得分最好的几个区县是青岛市、烟台市、济宁市;
14、在居民个人经济生活水平方面综合指标F2得分最好的是济南市,青岛市、东营市、威海市;总得分最高的地市是青岛市,这说明综合得分高的地市在选取的指标各方面发展比较均衡。2.2 聚类分析2.2.1 聚类分析介绍近几年来,数理统计的多元分析方法有了迅速发展,多元分析的技术被引用如分类学中,于是聚类分析从数值分类学中逐渐分离出来,形成新的分支。聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发自动分类。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度,在没有先验知识的情况下进行分类。聚类的方法大致可以分为以下几种,层次聚类分
15、析(或系统聚类分析)、模糊聚类分析、K-均值法、所有样品的聚类、分解法和加入法。其中,层次聚类分析是应用最为广泛的分类方法。2.2.2 聚类分析的应用本文选用系统聚类分析对重庆各区县进行聚类分析,其思想是将样品(或指标)各视为一类,根据类别之间的距离或相似程度将最近的类别合并,在计算新类别与其他类的相似程度,并选取最佳的加以合并,直到所有样品(或指标)合并为一类为止。由于变量的量纲并不全部相同,因此要对变量进行标准化。标准化的方法很多,本文选用Z得分法进行标准化变化,形式为xij*= (i=1,2,n;j=1,2,p)。度量区间采用平方欧氏距离(Squared Euclidean Distan
16、ce),其计算公式为EUCLID=,其中,k表示每个样本中有k个变量,Xi表示第一个样本在i个变量上的取值,Yi表示第二个样本在i变量上的取值。聚类方法采用组间联接,它是两类之间的平方距离,公式为DKL=应用数据分析软件SPSS19.0,根据上述方法,为了照应因子分析得到的分组,选择分为3个类别,得出以下结论图标。图2.2-1 聚类树状图根据软件分析,经整理得出的分组情况如表2.2-1。表2.2-1 山东省各地市聚类(聚类分析)地区由山东省的区域经济发展常识来看,根据聚类分析所得的表2.2-1中的分类是正确的,这与本章上一节中的采用因子分析所得的分类大体趋势上是相同的,但是由于各种统计方面因素
17、的影响,这样的分类也不尽如意。将表2.2-1山东省各地市聚类(聚类分析)与表2.1-7山东省各地市聚类(因子分析)作对比,可以将山东省各地市划分为三类。青岛市是山东省的沿海城市,经济一直位于山东的第一的位置,是山东的经济中心,因此可以青岛市作为第一类地区。淄博市、潍坊市、济宁市是发展状况稍欠第一类地区,因此将其与沿海城市烟台市、威海市,以及山东省会济南市划分为一类,作为第二类地区。将其与所有的城市划分为第三类地区。如表2.2-2所示。表2.2-2 修正后的山东省各市聚类济南市、淄博市、烟台市、潍坊市、济宁市、威海市枣庄市、东营市、泰安市、日照市、莱芜市、临沂市、德州市、聊城市、滨州市、菏泽市2
18、.3 判别分析介绍判别分析先根据已知类型的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断并将之归入已知的类别中。判别分析不仅能够将未知类别的新事物归类处理,而且能够用以分析对聚类分析结果的准确性进行检验。判别分析最基本的要求是分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的。2.3.2 判别分析的应用为了判断经过因子分析和聚类分析比较所得新的分类是否正确,本文采用判别分析的后一种功能对表2.2-2修正后的重庆区县分组进行判断检验。软件处理的结果如下。图2.3-1 典则判别函数表2.3-1分类结果a组别预测组成员初始计数11%100.0.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。表2.3-1得出对初始分组案例中的100.0%个进行了正确分类,因此表2.3-2中的区县分类是正确的。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1