多元统计分析论文.docx-资源下载

多元统计分析论文.docx

1、多元统计分析论文关于城镇居民人均全年家庭收入来源的统计分析作者：某某学院：理学院班级：10统计一班指导教师：*摘要：为了了解我国城镇人均居民收入的基本情况和收入来源，我选取了人均可支配收入、总收入、工资性收入、经营净收入、财产性收入和转移性收入几个指标对这个问题进行分析。本文首先采用聚类分析对各个省（市）的城镇居民人均收入进行了聚类，发现我国的各个省（市）之间的生活水平还是存在较大差异；然后用了判别分析对其中几个还没有分类的省（市）进行分类并对已经分好类的省（市）进行了一下判别，看一下我们第一步的分类是否合理；接着做了因子分析，分析了一下几个收入变量之间的关系，找出了两个可以代表全局的变量；

2、最后在因子分析的基础上对数据做了一个相应分析，观察了两个因子之间的关系。结果表明，各地区的经济发展不太平衡，人民生活水平差距较大，我们政府应采取一定的措施来带动相对落后的地区发展起来，实现共同富裕。关键词：城镇居民人均收入、聚类分析、判别分析、因子分析、相应分析、生活水平正文：序言：近年以来，全国上下认真贯彻落实科学发展观，以农业增产、农民增收为目的，加大各项惠农政策措施落实力度，多措并举做好农村劳动力转移就业工作，克服金融危机和严重干旱等自然灾害带来的不利影响，使全市农村经济保持了稳定发展的良好态势，农民现金收入持续增长，生活消费水平继续提高。我国是一个农业大国，至今仍有9亿农村人口，占全国

3、人口总数的70%，农民是我国最大的群体，农村消费能力的提升直接关系到国民经济的全局。从农村市场看，中国有近六成人口生活在农村。农村城镇化的进程对经济增长的带动作用是非常明显的，世界上还没有哪个国家有规模如此巨大的城镇化。农村居民的收入虽然低于城市居民，但是基数巨大，且农村人口的收入也在稳定增长。随着经济的发展，我国城镇居民的收入水平和消费水平的结构也发生了很大变化，人民生活水平的提高和消费的增加对于实现国民经济又好又快发展、正确处理好内需和外需的关系至关重要。于是，我就城镇居民人均收入方面的数据作了分析，大致讨论了一下现今为止人民的收入水平以及各地区农民的生活状况。正文：我选取了中国统计年鉴上

4、的一组数据，关于各地区城镇居民人均收入方面的问题，具体数据可以在文件夹中找到。对该数据，我用统计软件对它进行了聚类、判别、因子、相应等方面的分析，想要通过对该数据的分析了解一下我国各城市的居民人均收入情况，并对此提出相应的建议。具体分析情况如下：一、首先，录入数据如下：图-1二、对所录入的数据做聚类分析： “物以类聚，人以群分”。对事物进行分类，是人们认识事物的出发点，也是人们认识世界的一种重要方法。因此，分类学已成为人们认识世界的一门基础科学。为了克服定性分类存在的不足，人们把数学方法引入分类中，形成了数值分类学。后来随着多元统计分析的发展，从数值分类学中逐渐分离出了聚类分析方法。随着计算机

5、技术的不断发展，利用数学方法研究分类不仅非常必要而且完全可能，因此近年来，聚类分析的理论和应用得到了迅速的发展。聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理，R型聚类是对变量进行分类处理。在这里我用了系统聚类对数据进行聚类分析，也是属于Q型聚类，按照收入水平高、中、低的原则，初步把各个省份分为三类。为了在第三步里进行判别分析，所以我首先取出了河北、上海、广东、西藏四个地区的信息，对其他的地区进行分类分析。表-1聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21111692847.9080062

6、713193129.0340053415384319.33100542226653214.995008547991593.0253213611211332913.8011012718201760721.431001188222311763.1090414919272913511.67200131017233542513.9020015115184297698.28407191211245149736.4956015134196612667.0225916148258302676.45680181511171.014E7121016164111.250E7131524171141.596E700

7、22188281.990E71402419562.388E711022209122.880E7002121394.313E70202522156.321E7171926232108.620E7002524481.215E816182625232.326E823212726143.490E822242727121.349E926250上表是我用系统聚类得到的聚类表，其中包括了群集组合、系数和首次出现阶群集，从中可以看出不同的群集之间的系数差异较大。表-2群集成员案例3 群集1: 全国12: 北京23: 天津24: 山西35: 内蒙古16: 辽宁17: 吉林38: 黑龙江39: 江苏

8、210: 浙江211: 安徽312: 福建213: 江西314: 山东115: 河南316: 湖北317: 湖南318: 广西119: 海南320: 重庆121: 四川322: 贵州323: 云南324: 陕西325: 甘肃326: 青海327: 宁夏328: 新疆3表-2是我用系统聚类得到的最终的聚类结果。从表中可以看出，内蒙古、辽宁、山东、广西和重庆分为第一类；北京、天津、江苏、浙江和福建分为第二类；其余的省份分为第三类。从原数据表中可以看出，第二类的收入水平很高，属于在工资方面比较发达的地区，人民生活水平也应该比较高；第三类的收入水平很低，属于不太富

9、裕的地区，人民生活水平有待提高；第一类的收入水平居中，人民生活水平相对比较不错。* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+

10、安徽 13 -+ 湖北 18 -+ 四川 24 -+ 云南 26 -+ 吉林 8 -+ 江西 15 -+ 山西 5 -+ 河南 17 -+ 海南 22 -+ 宁夏 31 -+ 湖南 19 -+ 河北 4 -+ 陕西 28 -+ 广西 21 -+ 重庆 23 -+ 内蒙古 6 -+ 辽宁 7 -+-+ 贵州 25 -+ | 青海 30 -+ | 黑龙江 9 -+ +-+ 甘肃 29 -+ | | 新疆 32 -+ | | 西藏 27 -+ +-+ 全国 1 -+-+ | | 山东 16 -+ | | | 江苏 11 -+-+ +-+ | 福建 1

11、4 -+ | | | 天津 3 -+-+ | 广东 20 -+ | 北京 2 -+-+ | 上海 10 -+ +-+ 浙江 12 -+图-2图-2是聚类分析的树形图，可以大概的看一下分类结果，从中可以看出树形图中得出的结论和群集成员表的分类结果是相吻合的，也比较符合实际。三、在聚类分析的基础上对其它的四个未分类的数据做出判别，找到属于它们的分类：表-3汇聚的组内矩阵可支配收入总收入工资性收入经营净收入财产性收入转移性收入相关性可支配收入1.000.978.842.129.225.378总收入.9781.000.882.075.166.407工资性收入.842.8821.000-.19

12、0.080.136经营净收入.129.075-.1901.000.452-.308财产性收入.225.166.080.4521.000-.456转移性收入.378.407.136-.308-.4561.000表-3是汇聚的组内矩阵，其中的数值表示的是每个变量同他自身以及其他的变量之间的相关系数，从中可以看出可支配收入、总收入和工资性收入之间的相关性是比较大的，而其他的几个变量之间的相关性较小。表-4标准化的典型判别式函数系数函数12可支配收入.9052.392总收入.675-3.988工资性收入-.7252.044经营净收入-.116.995财产性收入.061-.628标准化的典型判别函数是由

13、标准化的自变量通过Fisher判别法得到的，通过上表可以得到标准化的典型判别函数，要得到标准化的典型判别得分，代入该函数的自变量必须是经过标准化的。这种方法相对比较麻烦，我们一般不采用。表-5典型判别式函数系数函数12可支配收入0.000587.002总收入0.000370-.002工资性收入-0.000460.001经营净收入-0.000209.002财产性收入0.000200-.002(常量)-11.498-2.997非标准化系数上表是未标准化的典型判别函数系数，由于可以将实测的样品观测值直接代入求出判别得分，所以该系数使用起来比标准化的系数要方便一些，见表-5。一般在输出表中是默认保留三

14、位小数，但有些系数是0.000，为判别函数的结果造成误差，可以在右击后选择更改单元格格式中改一下显示的小数点位数。由此表可知，两个Fisher判别函数分别为：实际上两个函数式计算的是各观测值在各个维度上的坐标，这样就可以通过这三个函数式计算出各样品观测值的具体空间位置。表-6组质心处的函数Ward Method 函数121.260.70525.149-.2343-1.606-.180在组均值处评估的非标准化典型判别式函数表-6给出了组重心处的函数，实际上为各类别重心在空间中的坐标位置。这样，只要在前面计算出各观测值的具体坐标位置后，再计算出它们分别离各重心的距离，就可以得知它们的分类了。表-7

15、分类函数系数Ward Method 123可支配收入.017.019.015总收入-.007-.003-.006工资性收入-.002-.005-.002经营净收入.002.000.001财产性收入-.009-.006-.008(常量)-79.285-145.684-56.207Fisher 的线性判别式函数如表-7所示，Ward Method栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中，各类的Bayes判别函数如下：，。将各地区的自变量值代入上述三个Bayes判别函数，得到三个函数值。比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。结果可知（见图-3），河北、

16、上海、广东、西藏应分别判入三、二、二、三类。图-3由于我们在保存子对话框中选择了生成表示判别结果的新变量，所以在数据编辑窗口中，可以观察到产生的新变量。其中，变量dis-1存放判别样品所属组别的值，变量dis1-1，dis2-1分别代表将地区各变量值代入第一个，第二个判别函数所得的判别分数，变量dis1-2、dis2-2，dis3-2分别代表地区分别属于第1类、第2类，第3类的Bayes后验概率值。四、对所录入的数据做因子分析：因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量

17、被称作“因子”，能反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而因子一般是不可观测的潜在变量。表-8相关矩阵a可支配收入总收入工资性收入经营净收入财产性收入转移性收入相关可支配收入1.000.998.951.495.557.777总收入.9981.000.959.483.545.775工资性收入.951.9591.000.334.469.610经营净收入.495.483.3341.000.634.288财产性收入.557.545.469.6341.000.241转移性收入.777.775.610.288.2411.000a. 此矩阵不是正定矩阵。表-8是相关矩阵表，相关系数反映

18、每个变量相互之间的依赖程度，由上面的表可以看出多数变量之间相关性还是比较强的，工资性收入和经营净收入之间相关性最弱，相关系数为0.334.表-9公因子方差初始提取可支配收入1.000.993总收入1.000.992工资性收入1.000.876经营净收入1.000.806财产性收入1.000.820转移性收入1.000.747提取方法：主成份分析。表-9是公因子方差表，里面包括各变量初始的方差和提取的因子的方差。表-10解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %14.15169.18569.1854.15169.185

19、69.1853.35455.89655.89621.08318.04387.2281.08318.04387.2281.88031.33187.2283.4747.90095.1274.2904.82599.9525.003.048100.00061.064E-111.773E-10100.000提取方法：主成份分析。表-10给出各公因子方差贡献表，其中初始特征值的三列给出初始相关矩阵或协差阵矩阵的特征值，用于确定哪些因子应该被提取：合计列为各因子对应的特征值，本例中共有两个因子对应的特征值大于1，因此应提取相应的两个公因子；方差的%列为各因子的方差贡献率；累积%列为各因子的累积方差贡献率，由

20、上表可以看出，前两个因子已经可以解释87.228%的方差。后面两大列给出提取出的公因子以及其经过旋转后的方差贡献情况。图-4图-4是各变量所占比重的碎石图，可见第一个成分的方差贡献率最大，而前两个成分的累积贡献率已经足够代表所有的变量。表-11成份矩阵a成份12可支配收入.986-.143总收入.983-.158工资性收入.907-.229经营净收入.605.663财产性收入.660.621转移性收入.766-.400提取方法 :主成分分析法。a. 已提取了 2 个成份。表-11给出旋转前的因子载荷阵，根据该表可以写出每个原始变量的因子表达式：，。从上表可以看出，每个因子在不同原始变量上的载

21、荷没有明显的差别，为了便于对因子进行命名，需要对因子载荷阵进行旋转。表-12旋转成份矩阵a成份12可支配收入.921.380总收入.927.365工资性收入.897.266经营净收入.182.879财产性收入.251.870转移性收入.863.047提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。表-12给出旋转后的因子载荷阵，从表上表可以看出，经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在指标、上有较大载荷，说明这四个指标有较强的相关性，可以归为一类；第二个公共因子在指标、上有较大载荷，可以归为另一类。表-13成份转换

22、矩阵成份121.860.5102-.510.860提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。表-13给出因子转换矩阵，若用A表示旋转前的因子载荷阵，用B表示因子转换矩阵，用C表示旋转后的因子载荷阵，则有：C=AB。表-14成份得分系数矩阵成份12可支配收入.272.007总收入.278-.005工资性收入.296-.070经营净收入-.187.601财产性收入-.155.574转移性收入.347-.223提取方法 :主成分分析法。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。表-14给出因子得分系数矩阵，根据上表中的因子得分系数和原始变

23、量的标准化值可以计算每个观测值的各因子的得分数，并可以据此对观测量进行进一步的分析。本例中旋转后的因子得分表达式可以写成：，。注意：在因子表达式中的各变量为进行标准化变换后的标准变量图-5 由于我们在保存子对话框中选择了“保存为新变量”，所以在原表中多了两列。见图-5.五、下面对因子分析的结果做相应分析：相应分析也叫对应分析，其特点是它所研究的变量可以是定性的。通常意义下的相应分析，是指对两个定性变量（因素）的多种水平进行相应性研究，因而它的应用越来越广泛，现在这种方法已经成为常用的多元分析方法之一。在社会、经济以及其他领域中，进行数据分析时经常要处理因素与因素之间的关系及因素内部各个水平之

24、间的相互关系。例如，评价某一个行业所属企业的经济效益，我们不仅要研究因素A，即企业按照经济效益好坏的分类情况，以及要研究因素B，即经济效益指标之间的关系，还要研究哪些企业与哪些经济效益指标更密切一些。这就需要相应分析的方法，将经济效益指标和企业状况放在一起进行分类、作图，以便更好的描述两者之间的关系，在经济意义上做出切合实际的解释。相应分析的思想首先由理查森和库德于1933年提出，后来法国统计学家让-保罗贝内泽等人对该方法进行了详细的论述而使其得到了发展。在因子分析中，我根据特征值大于1和累积贡献率大于80%的原则提取出了两个因子，一个是总收入因子，而另一个是可支配因子，要先对这两个因子进行

25、重新编码（小于-0.5编为1，-0.5-0编为2,0-0.5编为3,0.5-1编为4，大于1编为5），然后根据相应分析的步骤进行相应分析。表-15对应表总收入因子可支配因子12345有效边际1421301025511012301202540001125210003有效边际11945332上表为对应表，由上表可以看出可支配因子中的第1部分在总收入因子中的除了3、4以外的各部分所占的比例都相对较高。而总收入因子中的第2部分在可支配因子中的1、2部分所占的比例就是较大的。说明两个因子互相之间在前两个部分的相关程度还是很大的。表-16摘要维数惯量比例置信奇异值相关奇异值惯量卡方Sig.解释累积标准差2

26、1.719.517.674.674.106-.3412.438.192.250.924.1463.210.044.058.9824.118.014.0181.000总计.76724.547.078a1.0001.000a. 16 自由度上表为相应分析的总览表，表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。奇异值为特征值的平方根，根据总惯量和特征值求和相等，有。第一个维度惯量0.517，占总惯量的67.4%，第二个维度惯量接近0.192，占总惯量25.0%,第三个维度惯量接近0.044，占总惯量5.8%,第四个维度惯量接近0.014，占总惯量1.8%。根据累计贡献率，可以认为只要用前两个维度就可以解释行列变量

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？