用因子分析和聚类分析研究我国主要农产品单位面积产量.docx

资源描述

用因子分析和聚类分析研究我国主要农产品单位面积产量.docx

《用因子分析和聚类分析研究我国主要农产品单位面积产量.docx》由会员分享，可在线阅读，更多相关《用因子分析和聚类分析研究我国主要农产品单位面积产量.docx（27页珍藏版）》请在冰豆网上搜索。

用因子分析和聚类分析研究我国主要农产品单位面积产量.docx

用因子分析和聚类分析研究我国主要农产品单位面积产量

统计计算方法与统计软件课程设计

题目:

用因子分析和聚类分析研究我国主要农产品单位面积产量

学院：

班级：

学生姓名：

学生学号：

指导教师：

2015年07月10日

设计题目

用因子分析和聚类分析来分析主要农产品单位面积产量

设计类型（相应选项打√）

题目来源：

科研项目□工程实际□自拟题目√其他□

题目性质：

应用类√理论研究类□软件工程类□信息类□

设计目标

运用因子分析和聚类分析来对我国主要农产品单位面积产量进行分析，找出他们之间的关系，从而得到结论。

计划调查（或研究）内容

搜集我国主要农产品单位面积产量，运用所学的SPSS对数据进行合理的分析，找出他们之间的关系。

可以预见的困难及解决途径

1、运用软件对数据进行分析。

解决方法：

熟悉软件

2、计算时可能出现误差。

解决方法：

多次实验

3、软件的运用。

解决方法：

软件多次使用。

参考文献与参考资源（包括网址与地址）

[1]肖华勇.统计计算与软件应用[M].西北工业大学出版社,2009

[2]

[3]林海明.对主成分分析法运用中十个问题的解析[J].统计与决策,2007.（16）:

16-18.

[4]许丽利.聚类分析的算法及引用[D].吉林大学，2014.

计划与进度的安排

1、第一天：

根据设计题目，安排进度。

2、第二天：

查阅资料，进行设计前必要的资料准备。

3、第三天、第四天、第五天：

程序编写、上机调试。

4、第二周的第一天：

上机调试程序、结果分析。

5、第二周的第二天：

撰写设计报告。

指导教师评语：

签名：

评分：

摘要I

1题目分析2

1.1调查目的2

1.2设计方法2

2背景分析3

2.1理论一3

2.2理论二3

3实例分析4

3.1数据4

3.2运用公式进行分析5

4运用SPSS进行分析7

5结论16

7参考文献17

摘要

针对统计计算方法与统计软件课程中所学的因子分析和聚类分析，对我国主要农产品单位面积产量进行分析，并对所得到的结论进行整理，调查面积按生产单位和农户所调查品种当年实际种植面积计算，不按耕地面积、收获面积和计划播种面积计算。

如遇灾害全部或部分改种其它作物，则按各种作物实际种植面积计算。

间作、套种的作物按各种作物占有面积折算，不要多算或少算。

多年生作物（如苎麻、甘蔗）按当年留存的可收面积计算。

关键词：

因子分析聚类分析农作物产量单位面积

1题目分析

1.1调查目的

本次课程设计的目的是为了了解我国农产品的产量，农产品成本是农产品价值的重要组成部分，在市场经济条件下，及时、准确地了解和掌握农产品的生产成本水平，对于制定合理的农产品价格与流通政策，加强农业宏观调控，科学有效地组织指导农业生产，优化农业生产结构，促进农业生产的稳步发展，具有十分重要的意义。

1.2设计方法

运用因子分析和聚类分析两种方法，利用SPSS软件对主要农产品单位面积产量进行分析，从而得到结果。

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子，以较少的几个因子反映原资料的大部分信息。

运用这种研究技术，我们可以方便地找出影响某时间的主要因素是哪些，以及它们的影响力运用这种研究技术，我们还可以为市场细分做前期分析。

我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系——以样品间距离衡量）。

于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。

把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是聚类分析。

2背景分析

2.1理论一

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。

因子分析是处理多变量数据的一种统计方法，它可以揭示多变量之间的关系，其主要目的是从众多的可观测得变量中概括和综合出少数几个因子，用较少的因子变量来最大程度地概括和解释原有的观测信息，从而建立起简洁的概念系统，揭示出事物之间本质的联系。

主要适用于在没有任何前提预设假定下，研究者用它来对观察变量因子结构的寻找、对因子的内容以及变量的分类。

通过共变关系的分解，进而找出最低限度的主要成分，让你后进一步探讨这些主成分或共同因子与个别变量之间的关系，找出观察变量与其对应因子之间的强度，即所谓的因子负荷值，以说明因子与所属的观察变量的关系，决定因子的内容。

要求研究者对研究对象潜在变量的内容与性质，在测量之初就必须有非常明确的说明，或有具体的理论基础，并已先期决定相对应的观测变量的组成模式，进行因子分析的目的是为了检验这一先前提出的因子结构的适合性。

2.2理论二

聚类分析是研究“物以类聚”的一种科学有效的方法。

做聚类分析时，出于不同的目的和要求，可以选择不同的统计量和聚类方法。

系统聚类是目前应用最为广泛的一种聚类方法，其基本思想是：

先将待聚类的n个样品（或者变量）各自看成一类，共有n类；然后按照实现选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最为密切的两类合为一类，其余不变，即得到n-1类；再按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最为密切的两类并为一类，其余不变，即得到n-2类；如此下去，每次重复都减少一类，直到最后所有的样品（或者变量）都归为一类为止。

3实例分析

3.1数据

表3-12013数据（单位：

吨）

地

区

谷物

棉花

花生

油菜籽

芝麻

黄红麻

甘蔗

甜菜

烤烟

北京

6191

1078

2998

790

920

天津

5344

1237

3484

1450

河北

5476

946

3658

1613

1375

2374

45575

1807

山西

4509

1307

2314

1431

1081

48858

3030

内蒙古

5726

1454

1969

1162

903

39588

3903

辽宁

7044

1881

3259

1911

1943

51402

2876

吉林

7875

1848

3765

1151

27261

2510

黑龙江

6248

2875

6198

1451

31932

2511

上海

6888

1955

2669

2142

1427

48329

江苏

6642

1349

3745

2737

1781

60761

10000

1700

浙江

6453

1423

2823

1984

1700

3293

61955

安徽

5651

881

4734

2289

1412

2948

40121

2582

福建

6002

755

2644

1456

1246

3213

61153

2141

江西

5963

1546

2761

1285

1162

4868

44643

2126

山东

6244

923

4430

2545

1624

22333

2677

河南

5954

1016

4544

2418

1528

5582

71678

2526

湖北

6256

1106

3400

2042

1612

1838

38288

2450

1906

湖南

6163

1241

2510

1545

1546

2852

51816

2203

广东

5395

2845

1188

1483

2422

89789

2391

广西

5367

1066

2776

1013

1316

1468

72032

1720

海南

4768

2735

1596

3606

68510

1200

重庆

6228

660

2058

1860

1029

1616

37091

1918

四川

5917

942

2516

2245

1315

2105

40638

21247

1995

贵州

3973

587

1894

1614

1042

600

57060

2000

1640

云南

4537

1942

1617

1719

896

2067

62690

1976

西藏

5523

1924

2604

陕西

4286

1577

2946

1940

1658

100

31800

2332

甘肃

4333

1732

3992

1950

50351

3397

青海

3822

2070

22500

宁夏

5879

3400

1794

2516

750

4816

新疆

6289

2047

5661

2582

1493

72301

3.2运用公式进行分析

因子分析：

考虑

个成分的随机观测向量

。

因子模型要求线性相依，其中有m个公共因子f1f2…..fm和特殊因子

组成。

具体如下：

如果fi与fj相互独立（i≠j），则称该因子模型为正交因子模型。

正交因子模型具有如下特性：

x的方差可表示为:

（１）hi2是m个公共因子对第i个变量的贡献，称为第i个共同度（communality）或共性方差，公因子方差（commonvariance）

（２）δi称为特殊方差（specificvariance），是不能由公共因子解释的部分

因子负载aij是随机变量xi与公共因子fj的相关系数。

称gj2为公共因子fj对x的“贡献”，是衡量公共因子fj重要性的一个指标。

聚类分析：

所谓直接聚类法，是指在建立模糊相似矩阵之后，不去求传递闭包

，也不用布尔矩阵法，而是直接从模糊相似矩阵出发求得聚类图。

其步骤如下：

①取

（最大值），对每个

作相似类

，且

，

即将满足

的

与

放在一类，构成相似类。

相似类与等价类的不同之处是，不同的相似类可能有公共元素，即可出现

此时只要将有公共元素的相似类合并，即可得

水平上的等价分类。

②取

为次大值，从

中直接找出相似度为

的元素对

（即

），将对应于

的等价分类中

所在的类与

所在的类合并，将所有的这些情况合并后，即得到对应于

的等价分类。

③取

为第三大值，从

中直接找出相似度为

的元素对

（即

），将对应于

的等价分类中

所在的类与

所在的类合并，将所有的这些情况合并后，即得到对应于

的等价分类。

④以此类推，直到合并到

成为一类为止。

4运用Spss进行分析

点击分析，在点击将维，选择因子分析，将谷物、棉花、花生油、菜籽、芝麻、黄红麻、烤烟、甜菜、甘蔗导入变量，在描述中选择单变量，在抽取中选择碎石图，点击确定

因子分析

表5-1

附注

创建的输出

01-JUL-201511:

57:

注释

输入

活动的数据集

数据集1

过滤器

权重

拆分文件

工作数据文件中的N行

缺失值处理

对缺失的定义

MISSING=EXCLUDE：

用户定义的缺失值作为缺失对待。

使用的案例

LISTWISE：

统计量基于对所使用任何变量都不含缺失值的案例。

语法

FACTOR

/VARIABLES谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟

/MISSINGLISTWISE

/ANALYSIS谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟

/PRINTINITIALKMOEXTRACTIONROTATIONFSCORE

/PLOTEIGEN

/CRITERIAMINEIGEN

（1）ITERATE（25）

/EXTRACTIONPC

/CRITERIAITERATE（25）

/ROTATIONVARIMAX

/SAVEREG（ALL）

/METHOD=CORRELATION.

资源

处理器时间

00:

01.75

已用时间

00:

01.16

所需的最大内存

12144（11.859K）字节

已创建的变量

FAC1_1

成份得分1

FAC2_1

成份得分2

FAC3_1

成份得分3

表5-2

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.596

Bartlett的球形度检验

近似卡方

68.892

Sig.

.001

KMO值为0.596，大于最低限度0.5，说明可以做因子分析，Bartlett的显著性为0.001，小于0.05，说明可以进一步进行因子分析。

表5-3

公因子方差

初始

提取

谷物

1.000

.843

棉花

1.000

.805

花生

1.000

.658

油菜籽

1.000

.789

芝麻

1.000

.763

黄红麻

1.000

.690

甜菜

1.000

.713

烤烟

1.000

.857

提取第一列，我们可以清楚的看到。

除了花生和黄红麻以外，其余所提取的变量信息在70%以上，所以它丢失的信息量较少，因此可以进一步做因子分析。

表5-4

解释的总方差

成份

初始特征值

提取平方和载入

旋转平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

合计

方差的%

2.540

28.220

2.540

28.220

2.371

26.342

2.030

22.555

50.775

2.030

22.555

50.775

2.011

22.343

1.144

12.716

63.491

1.144

12.716

63.491

1.295

14.383

1.083

12.037

75.528

1.083

12.037

75.528

1.121

12.460

.782

8.685

84.212

.475

5.273

89.485

.440

4.889

94.374

.298

3.314

97.688

.208

2.312

100.000

表5-5

解释的总方差

成份

旋转平方和载入

累积%

26.342

48.685

63.068

75.528

在初始特征值一栏中，有4个特征值大于1，保留4个主成分，它们的累计方差贡献率为75.528%。

图5-1

从碎石图可知，特征值大于1的有4个点，说明保留4个主成分。

表5-6

成份矩阵a

成份

谷物

-.896

.054

.124

.146

棉花

.465

.248

.690

-.225

花生

.128

.789

-.129

-.050

油菜籽

.269

.202

-.340

.748

芝麻

-.348

.792

-.123

.012

黄红麻

-.768

.153

.166

.220

甜菜

.785

.126

-.279

.047

烤烟

.308

-.001

.620

.615

表5-7

提取方法:

主成份。

a.已提取了4个成份。

旋转成份矩阵a

成份

谷物

.908

.026

-.129

-.014

棉花

-.304

.250

.678

-.436

花生

-.129

.793

-.019

.109

油菜籽

-.154

.112

.108

.861

芝麻

.334

.786

-.146

.112

黄红麻

.821

.113

-.013

.055

甜菜

-.790

.132

.050

.262

烤烟

.011

-.109

.871

.293

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在7次迭代后收敛。

第一个主成分主要包含谷物、黄红麻、甜菜的信息。

第二个主成分主要包含：

花生、芝麻的信息。

第三个主成分主要包含：

油菜籽的信息。

表5-8

成份转换矩阵

成份

-.938

.003

.331

.103

.045

.990

.087

.103

.252

-.040

.855

-.451

.234

-.137

.390

.880

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

表5-9

成份得分系数矩阵

成份

谷物

.391

.003

.030

.036

棉花

-.063

.126

.506

-.424

花生

-.069

.396

-.064

.055

油菜籽

-.008

.016

.059

.763

芝麻

.122

.388

-.099

.084

黄红麻

.371

.040

.110

.090

甜菜

-.339

.066

-.084

.187

烤烟

.155

-.099

.724

.268

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

依据系数矩阵得：

主成分F1=0.391×谷物—0.063×棉花—0.069×花生—0.008×油菜籽+0.122×芝麻+0.371×黄红麻—0.339×甜菜+0.155×烤烟

主成分F2=0.003×谷物+0.126×棉花+0.396×花生+0.016×油菜籽+0.388×芝麻+0.040×黄红麻+0.066×甜菜—0.099×烤烟

主成分F3=0.030×谷物+0.126×棉花—0.064×花生+0.059×油菜籽—0.099×芝麻+0.110×黄红麻—0.084×甜菜+0.724×烤烟

主成分F4=0.036×谷物—0.424×棉花+0.055×花生+0.763×油菜籽+0.084×芝麻+0.090×黄红麻+0.187×甜菜+0.268×烤烟

表5-10

成份得分协方差矩阵

成份

1.000

.000

1.000

.000

1.000

.000

1.000

提取方法:

主成份。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

在SPSS中打开数据，点击分析，再点击分类，选择系统聚类，在统计量中点击单一方案中选择聚类数4，在绘制中选择树状图，点击确定。

聚类

表5-11

附注

创建的输出

01-JUL-201512:

00:

注释

输入

活动的数据集

数据集1

过滤器

权重

拆分文件

工作数据文件中的N行

缺失值处理

对缺失的定义

用户定义的缺失值作为缺失数据对待。

使用的案例

统计是在所使用的变量不带有缺失值的案例基础上进行的。

语法

CLUSTER谷物棉花花生油菜籽芝麻黄红麻甘蔗甜菜烤烟

/METHODBAVERAGE

/MEASURE=SEUCLID

/ID=地区

/PRINTSCHEDULE

/PLOTDENDROGRAMVICICLE.

资源

处理器时间

00:

00.39

已用时间

00:

00.42

表5-12

案例处理汇总a,b

案例

有效

缺失

总计

百分比

96.8

3.2

100.0

a.平方Euclidean距离已使用

b.平均联结（组之间）

平均联结（组之间）

表5-13

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

1882830.891

6398219.884

6827770.286

9858566.248

10283933.900

14091408.782

16308926.147

19848091.570

25234915.465

26578313.103

33513643.690

34968271.892

35485945.167

39668215.829

展开阅读全文