用因子分析和聚类分析研究我国主要农产品单位面积产量.docx
《用因子分析和聚类分析研究我国主要农产品单位面积产量.docx》由会员分享,可在线阅读,更多相关《用因子分析和聚类分析研究我国主要农产品单位面积产量.docx(27页珍藏版)》请在冰豆网上搜索。
用因子分析和聚类分析研究我国主要农产品单位面积产量
统计计算方法与统计软件课程设计
题目:
用因子分析和聚类分析研究我国主要农产品单位面积产量
学院:
班级:
学生姓名:
学生学号:
指导教师:
2015年07月10日
设计题目
用因子分析和聚类分析来分析主要农产品单位面积产量
设计类型(相应选项打√)
题目来源:
科研项目□工程实际□自拟题目√其他□
题目性质:
应用类√理论研究类□软件工程类□信息类□
设计目标
运用因子分析和聚类分析来对我国主要农产品单位面积产量进行分析,找出他们之间的关系,从而得到结论。
计划调查(或研究)内容
搜集我国主要农产品单位面积产量,运用所学的SPSS对数据进行合理的分析,找出他们之间的关系。
可以预见的困难及解决途径
1、运用软件对数据进行分析。
解决方法:
熟悉软件
2、计算时可能出现误差。
解决方法:
多次实验
3、软件的运用。
解决方法:
软件多次使用。
参考文献与参考资源(包括网址与地址)
[1]肖华勇.统计计算与软件应用[M].西北工业大学出版社,2009
[2]
[3]林海明.对主成分分析法运用中十个问题的解析[J].统计与决策,2007.(16):
16-18.
[4]许丽利.聚类分析的算法及引用[D].吉林大学,2014.
计划与进度的安排
1、第一天:
根据设计题目,安排进度。
2、第二天:
查阅资料,进行设计前必要的资料准备。
3、第三天、第四天、第五天:
程序编写、上机调试。
4、第二周的第一天:
上机调试程序、结果分析。
5、第二周的第二天:
撰写设计报告。
指导教师评语:
签名:
评分:
目录
摘要I
1题目分析2
1.1调查目的2
1.2设计方法2
2背景分析3
2.1理论一3
2.2理论二3
3实例分析4
3.1数据4
3.2运用公式进行分析5
4运用SPSS进行分析7
5结论16
7参考文献17
摘要
针对统计计算方法与统计软件课程中所学的因子分析和聚类分析,对我国主要农产品单位面积产量进行分析,并对所得到的结论进行整理,调查面积按生产单位和农户所调查品种当年实际种植面积计算,不按耕地面积、收获面积和计划播种面积计算。
如遇灾害全部或部分改种其它作物,则按各种作物实际种植面积计算。
间作、套种的作物按各种作物占有面积折算,不要多算或少算。
多年生作物(如苎麻、甘蔗)按当年留存的可收面积计算。
关键词:
因子分析聚类分析农作物产量单位面积
1题目分析
1.1调查目的
本次课程设计的目的是为了了解我国农产品的产量,农产品成本是农产品价值的重要组成部分,在市场经济条件下,及时、准确地了解和掌握农产品的生产成本水平,对于制定合理的农产品价格与流通政策,加强农业宏观调控,科学有效地组织指导农业生产,优化农业生产结构,促进农业生产的稳步发展,具有十分重要的意义。
1.2设计方法
运用因子分析和聚类分析两种方法,利用SPSS软件对主要农产品单位面积产量进行分析,从而得到结果。
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。
运用这种研究技术,我们可以方便地找出影响某时间的主要因素是哪些,以及它们的影响力运用这种研究技术,我们还可以为市场细分做前期分析。
我们所研究的样品(网点)或指标(变量)之间存在程度不同的相似性(亲疏关系——以样品间距离衡量)。
于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。
把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品(或指标)聚合完毕,这就是聚类分析。
2背景分析
2.1理论一
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析是处理多变量数据的一种统计方法,它可以揭示多变量之间的关系,其主要目的是从众多的可观测得变量中概括和综合出少数几个因子,用较少的因子变量来最大程度地概括和解释原有的观测信息,从而建立起简洁的概念系统,揭示出事物之间本质的联系。
主要适用于在没有任何前提预设假定下,研究者用它来对观察变量因子结构的寻找、对因子的内容以及变量的分类。
通过共变关系的分解,进而找出最低限度的主要成分,让你后进一步探讨这些主成分或共同因子与个别变量之间的关系,找出观察变量与其对应因子之间的强度,即所谓的因子负荷值,以说明因子与所属的观察变量的关系,决定因子的内容。
要求研究者对研究对象潜在变量的内容与性质,在测量之初就必须有非常明确的说明,或有具体的理论基础,并已先期决定相对应的观测变量的组成模式,进行因子分析的目的是为了检验这一先前提出的因子结构的适合性。
2.2理论二
聚类分析是研究“物以类聚”的一种科学有效的方法。
做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。
系统聚类是目前应用最为广泛的一种聚类方法,其基本思想是:
先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照实现选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。
3实例分析
3.1数据
表3-12013数据(单位:
吨)
地
区
谷物
棉花
花生
油菜籽
芝麻
黄红麻
甘蔗
甜菜
烤烟
北京
6191
1078
2998
790
920
0
0
0
0
天津
5344
1237
3484
0
1450
0
0
0
0
河北
5476
946
3658
1613
1375
2374
0
45575
1807
山西
4509
1307
2314
1431
1081
0
0
48858
3030
内蒙古
5726
1454
1969
1162
903
0
0
39588
3903
辽宁
7044
1881
3259
1911
1943
0
0
51402
2876
吉林
7875
1848
3765
0
1151
0
0
27261
2510
黑龙江
6248
0
2875
6198
1451
0
0
31932
2511
上海
6888
1955
2669
2142
1427
0
48329
0
0
江苏
6642
1349
3745
2737
1781
0
60761
10000
1700
浙江
6453
1423
2823
1984
1700
3293
61955
0
0
安徽
5651
881
4734
2289
1412
2948
40121
0
2582
福建
6002
755
2644
1456
1246
3213
61153
0
2141
江西
5963
1546
2761
1285
1162
4868
44643
0
2126
山东
6244
923
4430
2545
1624
0
0
22333
2677
河南
5954
1016
4544
2418
1528
5582
71678
0
2526
湖北
6256
1106
3400
2042
1612
1838
38288
2450
1906
湖南
6163
1241
2510
1545
1546
2852
51816
0
2203
广东
5395
0
2845
1188
1483
2422
89789
0
2391
广西
5367
1066
2776
1013
1316
1468
72032
0
1720
海南
4768
0
2735
0
1596
3606
68510
0
1200
重庆
6228
660
2058
1860
1029
1616
37091
0
1918
四川
5917
942
2516
2245
1315
2105
40638
21247
1995
贵州
3973
587
1894
1614
1042
600
57060
2000
1640
云南
4537
1942
1617
1719
896
2067
62690
0
1976
西藏
5523
0
1924
2604
0
0
0
0
陕西
4286
1577
2946
1940
1658
100
31800
0
2332
甘肃
4333
1732
3992
1950
0
0
0
50351
3397
青海
3822
0
0
2070
0
0
0
22500
0
宁夏
5879
3400
1794
2516
750
0
0
0
4816
新疆
6289
2047
5661
2582
1493
0
0
72301
0
3.2运用公式进行分析
因子分析:
考虑
个成分的随机观测向量
。
因子模型要求线性相依,其中有m个公共因子f1f2…..fm和特殊因子
组成。
具体如下:
如果fi与fj相互独立(i≠j),则称该因子模型为正交因子模型。
正交因子模型具有如下特性:
x的方差可表示为:
(1)hi2是m个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,公因子方差(commonvariance)
(2)δi称为特殊方差(specificvariance),是不能由公共因子解释的部分
因子负载aij是随机变量xi与公共因子fj的相关系数。
称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。
聚类分析:
所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包
,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。
其步骤如下:
①取
(最大值),对每个
作相似类
,且
=
,
即将满足
的
与
放在一类,构成相似类。
相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现
.
此时只要将有公共元素的相似类合并,即可得
水平上的等价分类。
②取
为次大值,从
中直接找出相似度为
的元素对
(即
),将对应于
的等价分类中
所在的类与
所在的类合并,将所有的这些情况合并后,即得到对应于
的等价分类。
③取
为第三大值,从
中直接找出相似度为
的元素对
(即
),将对应于
的等价分类中
所在的类与
所在的类合并,将所有的这些情况合并后,即得到对应于
的等价分类。
④以此类推,直到合并到
成为一类为止。
4运用Spss进行分析
点击分析,在点击将维,选择因子分析,将谷物、棉花、花生油、菜籽、芝麻、黄红麻、烤烟、甜菜、甘蔗导入变量,在描述中选择单变量,在抽取中选择碎石图,点击确定
因子分析
表5-1
附注
创建的输出
01-JUL-201511:
57:
28
注释
输入
活动的数据集
数据集1
过滤器
权重
拆分文件
工作数据文件中的N行
31
缺失值处理
对缺失的定义
MISSING=EXCLUDE:
用户定义的缺失值作为缺失对待。
使用的案例
LISTWISE:
统计量基于对所使用任何变量都不含缺失值的案例。
语法
FACTOR
/VARIABLES谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟
/MISSINGLISTWISE
/ANALYSIS谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟
/PRINTINITIALKMOEXTRACTIONROTATIONFSCORE
/PLOTEIGEN
/CRITERIAMINEIGEN
(1)ITERATE(25)
/EXTRACTIONPC
/CRITERIAITERATE(25)
/ROTATIONVARIMAX
/SAVEREG(ALL)
/METHOD=CORRELATION.
资源
处理器时间
00:
00:
01.75
已用时间
00:
00:
01.16
所需的最大内存
12144(11.859K)字节
已创建的变量
FAC1_1
成份得分1
FAC2_1
成份得分2
FAC3_1
成份得分3
表5-2
KMO和Bartlett的检验
取样足够度的Kaiser-Meyer-Olkin度量。
.596
Bartlett的球形度检验
近似卡方
68.892
df
36
Sig.
.001
KMO值为0.596,大于最低限度0.5,说明可以做因子分析,Bartlett的显著性为0.001,小于0.05,说明可以进一步进行因子分析。
表5-3
公因子方差
初始
提取
谷物
1.000
.843
棉花
1.000
.805
花生
1.000
.658
油菜籽
1.000
.789
芝麻
1.000
.763
黄红麻
1.000
.690
甜菜
1.000
.713
烤烟
1.000
.857
提取第一列,我们可以清楚的看到。
除了花生和黄红麻以外,其余所提取的变量信息在70%以上,所以它丢失的信息量较少,因此可以进一步做因子分析。
表5-4
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
合计
方差的%
1
2.540
28.220
28.220
2.540
28.220
28.220
2.371
26.342
2
2.030
22.555
50.775
2.030
22.555
50.775
2.011
22.343
3
1.144
12.716
63.491
1.144
12.716
63.491
1.295
14.383
4
1.083
12.037
75.528
1.083
12.037
75.528
1.121
12.460
5
.782
8.685
84.212
6
.475
5.273
89.485
7
.440
4.889
94.374
8
.298
3.314
97.688
9
.208
2.312
100.000
表5-5
解释的总方差
成份
旋转平方和载入
累积%
1
26.342
2
48.685
3
63.068
4
75.528
5
6
7
8
9
在初始特征值一栏中,有4个特征值大于1,保留4个主成分,它们的累计方差贡献率为75.528%。
图5-1
从碎石图可知,特征值大于1的有4个点,说明保留4个主成分。
表5-6
成份矩阵a
成份
1
2
3
4
谷物
-.896
.054
.124
.146
棉花
.465
.248
.690
-.225
花生
.128
.789
-.129
-.050
油菜籽
.269
.202
-.340
.748
芝麻
-.348
.792
-.123
.012
黄红麻
-.768
.153
.166
.220
甜菜
.785
.126
-.279
.047
烤烟
.308
-.001
.620
.615
表5-7
提取方法:
主成份。
a
a.已提取了4个成份。
旋转成份矩阵a
成份
1
2
3
4
谷物
.908
.026
-.129
-.014
棉花
-.304
.250
.678
-.436
花生
-.129
.793
-.019
.109
油菜籽
-.154
.112
.108
.861
芝麻
.334
.786
-.146
.112
黄红麻
.821
.113
-.013
.055
甜菜
-.790
.132
.050
.262
烤烟
.011
-.109
.871
.293
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
a
a.旋转在7次迭代后收敛。
第一个主成分主要包含谷物、黄红麻、甜菜的信息。
第二个主成分主要包含:
花生、芝麻的信息。
第三个主成分主要包含:
油菜籽的信息。
表5-8
成份转换矩阵
成份
1
2
3
4
1
-.938
.003
.331
.103
2
.045
.990
.087
.103
3
.252
-.040
.855
-.451
4
.234
-.137
.390
.880
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
表5-9
成份得分系数矩阵
成份
1
2
3
4
谷物
.391
.003
.030
.036
棉花
-.063
.126
.506
-.424
花生
-.069
.396
-.064
.055
油菜籽
-.008
.016
.059
.763
芝麻
.122
.388
-.099
.084
黄红麻
.371
.040
.110
.090
甜菜
-.339
.066
-.084
.187
烤烟
.155
-.099
.724
.268
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
依据系数矩阵得:
主成分F1=0.391×谷物—0.063×棉花—0.069×花生—0.008×油菜籽+0.122×芝麻+0.371×黄红麻—0.339×甜菜+0.155×烤烟
主成分F2=0.003×谷物+0.126×棉花+0.396×花生+0.016×油菜籽+0.388×芝麻+0.040×黄红麻+0.066×甜菜—0.099×烤烟
主成分F3=0.030×谷物+0.126×棉花—0.064×花生+0.059×油菜籽—0.099×芝麻+0.110×黄红麻—0.084×甜菜+0.724×烤烟
主成分F4=0.036×谷物—0.424×棉花+0.055×花生+0.763×油菜籽+0.084×芝麻+0.090×黄红麻+0.187×甜菜+0.268×烤烟
表5-10
成份得分协方差矩阵
成份
1
2
3
4
1
1.000
.000
.000
.000
2
.000
1.000
.000
.000
3
.000
.000
1.000
.000
4
.000
.000
.000
1.000
提取方法:
主成份。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
在SPSS中打开数据,点击分析,再点击分类,选择系统聚类,在统计量中点击单一方案中选择聚类数4,在绘制中选择树状图,点击确定。
聚类
表5-11
附注
创建的输出
01-JUL-201512:
00:
57
注释
输入
活动的数据集
数据集1
过滤器
权重
拆分文件
工作数据文件中的N行
31
缺失值处理
对缺失的定义
用户定义的缺失值作为缺失数据对待。
使用的案例
统计是在所使用的变量不带有缺失值的案例基础上进行的。
语法
CLUSTER谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟
/METHODBAVERAGE
/MEASURE=SEUCLID
/ID=地区
/PRINTSCHEDULE
/PLOTDENDROGRAMVICICLE.
资源
处理器时间
00:
00:
00.39
已用时间
00:
00:
00.42
表5-12
案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
30
96.8
1
3.2
31
100.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
平均联结(组之间)
表5-13
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
1
2
1882830.891
0
0
13
2
11
13
6398219.884
0
0
5
3
4
28
6827770.286
0
0
6
4
17
22
9858566.248
0
0
7
5
11
25
10283933.900
2
0
14
6
4
6
14091408.782
3
0
11
7
12
17
16308926.147
0
4
17
8
20
21
19848091.570
0
0
9
9
16
20
25234915.465
0
8
20
10
9
18
26578313.103
0
0
15
11
3
4
33513643.690
0
6
23
12
7
15
34968271.892
0
0
16
13
1
30
35485945.167
1
0
28
14
11
24
39668215.829
5
0