1、多元统计分析案例分析一、对我国 30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、 消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农 村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村 居民家庭人均纯收入、耕地面积及农村就业人数。现从年的调查资料中 抽取个样本,指标数据如下:地区农产品 价格指 数(上 年=100)农村住 宅投资 (亿 元)农村居 民消费 水平(元)农村居 民生活 消费支 出合计 (元)农村居 民家庭 人均纯 收入(元)耕地面 积 2008 (万公 顷)农村私 营企业 就
2、业人 数(万 人)北 京98.2793.04128869254.813262231.7153.9天 津103.0348.3178144936.710075441.18.0河 北99.70441.7538673844.959586317.380.9山 西100.43168.7145003663.947364055.851.7内蒙古99.8333.1744864460.855307147.218.4辽 宁102.90162.0557394489.569084085.399.5吉 林103.7771.6546634147.462375534.621.2黑龙江98.07126.4545364391.2
3、621111830.142.8上 海102.232.121360910210.513978244.0258.4江 苏99.92284.5581966542.991184763.8569.8浙 江100.25513.7598788928.9113031920.9398.3安 徽99.08412.4844474013.352855730.2105.9福 建98.04176.3568795498.374271330.1113.1江 西96.81236.5343973911.657892827.1173.2山 东101.23566.9057334807.269907515.3273.6河 南99.07
4、729.4740613682.255247926.4137.7湖 北96.30210.0647584090.858324664.166.4湖 南90.61298.4145134310.456223789.4104.5广 东94.95337.4458805515.678902830.7124.4广 西89.25248.8035613455.345434217.589.0海 南101.9126.2238463446.25275727.55.3重 庆88.9980.1236523624.652772235.936.7675四 川96.94456.1047483897.550875947.4140.3
5、贵 州96.11137.2229262852.534724485.325.4云 南96.50158.9736033398.339526072.141.3陕 西95.83151.7936833793.841054050.31.7甘 肃100.2297.3329752942.034254658.822.0青 海94.6163.6336843863542.710.511.4宁 夏99.3929.51389446751107.143.616.7新 疆 92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:中国统计年鉴 2010、将数据进行标准化变换:地区农产品 价
6、格指 数(上年 =100)农村 住宅 投资 (亿 元)农村居 民消费 水平(元)农村居 民生活 消费支 出合计 (元)农村居 民家庭 人均纯 收入(元)耕地 面积2008(万 公顷)农村私 营企业 就业人 数(万 人)北 京0.09-0.672.822.532.37-1.360.37天 津1.33-0.910.920.151.30-1.29-0.78河 北0.471.24-0.56-0.46-0.070.84-0.21山 西0.65-0.25-0.33-0.56-0.480.02-0.44内蒙古0.50-0.99-0.33-0.12-0.211.15-0.70辽 宁1.30-0.290.14-
7、0.100.250.03-0.06吉 林1.52-0.78-0.26-0.290.020.56-0.68黑龙江0.04-0.48-0.31-0.150.012.84-0.51上 海1.12-1.163.093.062.60-1.361.20江 苏0.520.381.061.040.980.283.66浙 江0.611.641.692.351.71-0.752.31安 徽0.301.08-0.35-0.36-0.300.63-0.01福 建0.04-0.210.570.460.42-0.970.05江 西-0.280.12-0.36-0.42-0.13-0.420.52山 东0.861.930.
8、140.080.271.281.32河 南0.302.82-0.49-0.55-0.221.430.24湖 北-0.42-0.03-0.23-0.32-0.110.24-0.32湖 南-1.890.46-0.32-0.20-0.18-0.07-0.02广 东-0.770.670.190.470.57-0.420.14广 西-2.240.19-0.68-0.67-0.540.08-0.14海 南1.04-1.03-0.57-0.68-0.30-1.18-0.81重 庆-2.31-0.74-0.64-0.58-0.30-0.64-0.56四 川-0.251.32-0.23-0.43-0.360.7
9、10.26贵 州-0.46-0.42-0.92-1.00-0.900.18-0.65云 南-0.36-0.31-0.66-0.70-0.740.75-0.52陕 西-0.54-0.34-0.63-0.48-0.690.02-0.83甘 肃0.60-0.64-0.90-0.96-0.920.24-0.67青 海-0.85-0.83-0.63-0.45-1.88-1.44-0.76宁 夏0.39-1.01-0.550.00-1.69-1.43-0.71新 疆-1.30-0.74-0.67-0.67-0.510.05-0.70、用均值聚类法对样本进行分类如下:聚类成员案例号地区聚类距离1北 京110
10、69.192天 津23060.353河 北3920.654山 西41506.425内蒙古3577.126辽 宁22453.897吉 林31487.958黑龙江35006.419上 海12094.3810江 苏22853.4211浙 江13015.1412安 徽31204.4913福 建21612.4614江 西41880.4015山 东32088.5516河 南31282.2717湖 北32230.1518湖 南42053.3519广 东21119.9820广 西41412.1421海 南42541.0522重 庆41423.5123四 川31138.1424贵 州42025.4125云 南3
11、2196.6326陕 西41127.9127甘 肃42123.6728青 海44568.6029宁 夏44247.1230新 疆41360.50分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、辽宁、福建、甘肃、江苏、广东。 第三类: 浙江、河北、内蒙古、吉林、 黑龙江、安徽、山东、河南、湖北、四 川、云南。第四类:山西、青海、宁夏、新疆 、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如
12、下:案例数目实际组预测组p1110.9982220.5753330.9974440.3615330.8366220.2347330.7878330.0979110.52110220.43911110.48612330.99213220.73914440.41515330.24416330.40617330.38718440.42119220.33320440.9521440.28522440.45323330.95124440.3372534*0.27826440.63227440.27828440.22229440.12430440.981*. 错误分类的案例从上可知,只有一个地区判别组和原
13、组不同,回代率为 96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下:标准化的典型判别式函数系数函数123农产品价格指数0.180.3980.394农村住宅投资0.4930.687-0.197农村居民价格水平0.0870.3620.243生活消费支出1.0040.094-0.817人均纯收入0.381-0.2820.565耕地面积-0.0411.019-0.235就业人数-0.631-0.7420.802组质心处的函数函数组号123110.678-0.369-0.62821.747-0.7511.1753-0.9621.899-0.0324-2.595-1.177-0.306判
14、别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671Y2=-0.62213Y3=-0.84188计算 Y 值与不同类别均值之间的距离分别为:D1=138.5182756D2=12.11433
15、124D3=7.027544292D4=2.869979346经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。 经 spss 软件分析结果如下:(1)各指标的相关系数阵:Correlation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收入业就业人数Correlation 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.
16、578业就业人数.187.584.625.5781.000从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确, 能够从中提取公共因子,适合因子分子。2)检验:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.701Bartletts Test ofApprox. Chi-Square145.585Sphericitydf10Sig.000由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,
17、认为相关 系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标 准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:CommunalitiesInitialExtraction农产品价格指数1.000.979农村居民消费1.000.938消费支出1.000.923庭人均纯收入1.000.878业就业人数1.000.598Extraction Method: Principal Component Analysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。Total Variance ExplainedComponentInitial Eig
18、envaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulativ e %Total% of VarianceCumulativ e %Total% of VarianceCumulativ e %13.44968.97368.9733.44968.97368.9733.20063.99763.9972.86717.34086.313.86717.34086.3131.11622.31586.3133.52610.51796.8304.1402.79699
19、.6265.019.374100.000Extraction Method: Principal Component Analysis.从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。(4)碎石图:Scree Plot5)因子载荷阵如下:Component MatrixaComponent12农产品价格指数.446.883农村居民消费.967-.052消费支出.952-.125家庭人均纯收入.936-.039就业人数.729-.258
20、Extraction Method: Principal Component Analysis. a. 2 components extracted.由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要; 第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于 对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:Rotated Component MatrixaComponent12农产品价格指数.150.978农村居民消费.936.251消费支出.944.177家庭人均纯收入.902.253就业人数.773-.019Extraction Metho
21、d: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.a. Rotation conv erged in 3 iterations.(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进 行分类。将五个指标按高载荷分成两类:高载荷指标意义1农村居民消费水平 农村生活消费支出 农村居民家庭人均收入收支因子2农产品价格指数价格因子四,主成分分析:(1)各指标间的相关系数矩阵如下表所示:Correlation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收
22、入业就业人数Correlation 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠, 所以用主成分分析将多个指标化成几个不相关的综合指标。(2)求相关矩阵的特征值和特征向量:特征根方差贡献率累计贡献率13.44968.97368.97320.86717.3486.31330.52610.51796.8340.1
23、42.79699.62650.0190.374100从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:compoent12农产品价格指数0.1351121.018454农村居民消费水平0.280371-0.059977消费支出0.276022-0.144175家庭人均年纯收入0.271383-0.044983就业人数0.211366-0.297578所以,前两个主成分为:第一个主成分:F1=0.135112 X1+0.280371X2+ 0.2
24、76022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农 居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。4)因子得分:Component Score Coefficient MatrixComponent12农产品价格指数-.1931.009农村居民消费.285.031消费支出.307-.051家庭人均纯收入.272.041就业人数.293-.218Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores.根据上表写出以下因子得分函数:F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭 人均纯收入+0.293就业人数F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人 均纯收入-0.218就业人数(5)综合评价:以两个因子的方差贡
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1