实用多元统计分析ynh.docx

资源描述

实用多元统计分析ynh.docx

《实用多元统计分析ynh.docx》由会员分享，可在线阅读，更多相关《实用多元统计分析ynh.docx（19页珍藏版）》请在冰豆网上搜索。

实用多元统计分析ynh.docx

实用多元统计分析ynh

中国地质大学

研究生课程论文封面

课程名称实用多元统计分析

教师姓名

研究生姓名

研究生学号

研究生专业石油与天然气工程

所在院系资源学院

类　　　别硕士

日　　　期2013年12月19日

一．聚类分析

聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。

随着现代科学的发展，尤其是计算机的普及，利用数学方法研究分类问题不仅非常必要，也成为可能。

因此，聚类分析作为多元分析的一个重要的分支，发展十分迅速。

下面简单的介绍一下聚类分析在油藏分类方面的应用。

1.数据来源

根据导师油田项目中油层孔隙结构数据，整理一份excel表格。

具体数据如下表1所示

表1：

不同层位储层性质

井号

层位

相对

分选

系数

汞孔

隙度

饱和度

中值

压力

平均

孔隙半径

结构

系数

最大

排驱

压力

孔隙度

最大

汞饱

和度

Ek1

0.92

10.74

5.01

7.16

1045.50

0.12

15.00

71.61

Es3

1.35

15.04

4.31

7.95

198.41

0.16

23.05

65.25

Ek2

1.33

6.62

9.24

8.91

988.10

0.27

10.26

64.53

Ek2

0.90

10.97

1.40

9.46

257.39

0.23

14.73

74.65

1.07

7.99

10.33

7.98

179.61

4.21

12.02

66.51

Ek3

1.24

10.71

2.37

8.39

1304.80

0.17

15.86

67.52

ES1

0.94

15.60

0.27

17.70

16.64

0.01

19.42

80.34

1.26

9.57

6.16

6.90

392.55

0.22

14.53

65.90

K-J

0.25

15.15

10.92

4.81

356.23

0.06

23.66

64.03

2.聚类分析方法

按照聚类过程以及所使用的算法，可以将聚类分析分为快速聚类和系统聚类法（分层聚类）。

快速聚类主要是大规模的样品进行有效的聚类。

分层聚类既可以对样品进行聚类，又可以对指标进行聚类。

本次作业分别利用两种方法来对表1所示的数据（变量）进行聚类。

3.1快速聚类法

基本思想：

在待聚类的样品比较多时，先给出一个大致的初始分类，然后用某种原理进行修改，直到分类结果比较合理为止。

3.1.1快速聚类结果

表2：

初始类中心表3：

聚类结果表

表4：

迭代过程中凝聚点（聚类中心）变化值结果表表5：

最终凝聚点（聚类中心）

表6：

最终聚类中心距离表8：

各类所含的样品数

：

表7：

各聚类变量的方差分析结果

3.1.2快速聚类方法过程及分析

由输出结果可以得到以下结论：

1．确定凝聚点：

因为凝聚点的选择采用了系统默认的方式，所以系统将枣74、张海2-2和王26-1三口井作为这三类的凝聚点，结果如表2所示；

2．计算聚类结束标准：

按照欧式距离法，

类似可得第二类和第三类之间的距离。

则挑选一个较小距离，然后乘以0.01则得收敛标准（具体计算过程略）。

3．如表3所示，对样本的聚类结果将4.、8、9分为一类；将2、5、7分为一类；将1、3、6分为一类；

4．如表4所示，每次聚类都要计算凝聚点的变化，这组数据凝聚点变化值为：

57.34、115.643、192.044；最终凝聚点则如表5所示。

5．表6为最终聚类中心距离，第一类与第二类的中心距离为203.905；第一类与第三类的中心距离为777.425；第二类与第三类的中心距离为981.273；

6．表8所示为每类样品所包含的样品数。

3.2系统聚类法（分层聚类法）

基本思想：

先将待聚类的n类样品（或变量）各自看成一类，共n类，然后按选定的方法计算每两类之间的聚类统计量，将关系最密切的两类聚为一类，即有n-1类，在按前面的方法计算新类与其它类之间距离（或相似系数），在将关系密切的两类聚为一类，有n-2类，如此继续，每次重复都减少一类，直到所有样品（或变量）聚为一类

3.2.1聚类结果

表9：

参与聚类分析的样品概述

表10：

样品间的距离矩阵

表11：

聚类步骤表

表12：

聚类结果表

3.2.3系统聚类方法过程及分析

由输出结果得到以下结论：

1．从表9聚类分析样品的概述中可以看出，参与聚类分析的有效样品的变量数为9个，占所有样品100％；参与聚类分析的有效样品的变量所含有缺失值的样品数为0个，占所有样品的0％；参与聚类分析的总样品的变量数为9个；

2．表10变量间的距离矩阵，在聚类过程中最初将这9个变量各自看成一类，SPSS首先根据所设定的方法（马氏距离）计算各个变量之间的距离，得到此距离矩阵，然后从此矩阵中找到最小值0.897，可以看出这个值为汞孔隙度和孔隙度之间的距离，所以首先将这两类和为一类，然后在根据最小距离法，计算新类与其它未合并类之间的距离，如此继续，每次重复都减少一类，直到最后所有的变量都归为一类；

3．表11为聚类步骤表，第一列为聚类的步骤顺序，第二和第三列为每次合并的类的编号，第四列为被合并的类间距离，第五和第六列为参与合并的类上次被合并的步骤序号，第七列为合并的类下次又被合并的序号。

可以得出：

（1）变量2和7在0.897的水平上合并为一类（设此类为9），它们合并的新类9在第四步时又被重新合并；

（2）变量4和8在1.622的水平基础上合并为一类（设此类为10），它们合并的新类也在第四步时又被重新合并，即它们和变量2和7合并的新类9再次合并；

（3）变量3和6在2.926的水平上合并为一类（设此类为11），它们的新类11在第七步时被再次合并；

（4）步骤

（1）和

（2）中合并的两个新类9和10在3.265的水平上又被合并成一个新类（设此类为12）；这个新类在第六步时又被再次合并；

（5）变量1和5在3.475的水平上合并为一类（设此类为13），这个新类在第六步时被合并，即和步骤

（1）和

（2）中合并的新类12再次合并；

（6）新类12和新类13在3.658的水平上合并为新类14，它在第七步时被再次合并；

（7）新类11和新类14在3.833的水平上被最终合并。

4．表12为聚类结果，词表分别显示了聚为三类、四类和五类时的不同情况。

图1：

聚类树形图

二．回归分析

回归分析是统计学的一个重要分支，它基于观测数据建立变量之间的某种依赖关系，分析数据的内在规律，并可用于预报、控制等方面。

下面用《实用多元统计分析》课本中第68页第5题对回归分析在国家财政收入因素分析的应用上作一下介绍。

1.数据来源

《实用多元统计分析》中第68页第5题：

研究国家财政收入时，财政收入y为因变量，考虑以下几个自变量，x1：

农业增加值（亿元）；x2：

工业增加值（亿元）；x3：

建筑业增加值（亿元）；x4：

人口数（万人）；x5：

社会消费总额（亿元）；x6：

受灾面积（万公顷）。

据《中国统计年鉴》获得1978—1998年共21个年份的统计数据，整理出一份excel表格，见表13，试用不同的方法来建立回归模型：

表13：

财政收入影响因素数据表

年份

1978

1018.4

1607

138.2

96259

2239.1

50760

1132.3

1979

1258.9

1769.7

143.8

97542

2619.4

39370

1146.4

1980

1359.4

1996.5

195.5

98705

2976.1

44530

1159.9

1981

1545.6

2048.4

207.1

100072

3309.1

39790

1175.8

1982

1761.6

2162.3

220.7

101654

3637.9

33130

1212.3

1983

1960.8

2375.6

270.6

103008

4020.5

34710

1367

1984

2295.5

2789

316.7

104357

4694.5

31890

1642.9

1985

2541.6

3448.7

417.9

105851

5773

44370

2004.8

1986

2763.9

3967

525.7

107507

6542

47140

2122

1987

3204.3

4585.8

665.8

109300

7451.2

42090

2199.4

1988

3831

5777.2

810

111026

9360.1

50870

2357.2

1989

4228

6484

794

112704

10556.5

46990

2664.9

1990

5017

6858

859.4

114333

11365.2

38470

2937.1

1991

5288.6

8087.1

1015.1

115823

13145.9

55470

3149.5

1992

5800

10284.5

1415

117171

15952.1

51330

3483.4

1993

6882.1

14143.8

2284.7

118517

20182.1

48830

4349

1994

9457.2

19359.6

3012.6

119850

26796

55040

5218.1

1995

11993

24718.3

3819.6

121121

33635

45821

6242.2

1996

13844.2

29082.6

4530.5

122389

40003.9

46989

7408

1997

14211.2

32412.1

4810.6

123626

43579.4

53429

8651.1

1998

14599.6

33429.8

5262

124810

46405.9

50145

9876

2．回归分析方法

2.1逐步回归法

该法应用于自变量较多时，是向前引入法与向后剔除法的结合。

首先用向前引入法选择第1个和第2个自变量进入回归方程，以后每选入新变量之前都要对已在回归方程中的自变量用向后剔除法剔除作用不明显的变量，直到最后没有自变量被引入也没有自变量被剔除。

2.1.1逐步回归的结果

表14：

回归数据统计表

表15：

各回归模型拟合优度表

表16：

变量进入、剔除过程表

表17：

各回归方程的显著性检验

表18：

所建回归方程系数

2.1.2逐步回归结果分析

对自变量进入回归方程的标准（0.05）和变量剔除回归方程的标准（0.1）采用系统默认值。

从以上表格得出以下结论：

1．表14为对回归的数据进行统计的结果，给出了各个变量的样本均值和标准差；

2．表15为各回归方程的拟合优度，可见，各回归方程的拟合度较高；

3．表16说明了本回归过程变量进入合剔除的情况。

可以看出，第一个进入回归方程的变量为x5：

社会消费总额，其次为：

x1：

农业增加值、x2：

工业增加值。

此过程共建立了3个回归模型，第一个只有变量x5；第二个包含x1、x5；第三个包含x1、x2、x5。

4．表18为所建的三个回归方程的回归常数与回归系数，这三个方程为：

标准化的回归方程为：

5．表19为未进入方程的变量，它们的sig超出了所规定的范围。

表19：

未进入方程的变量

2.2强行进入法

只建立一个方程，将所选的自变量全部进入回归方程，缺陷是将不显著的变量也选入回归方程。

统计结果与分析

1．强行进入法较为简单，从表20可以看出来，回归模型相关系数（0.998）较高，决定系数为0.996，即总体回归效果很好，在因变量的变化中有99.6％可用自变量来解释。

2．从表22可以得出它的非标准回归方程和标准回归方程分别为：

表20：

回归模型拟合优度表

表21：

回归方差分析表

表22：

建立的回归方程表

3．在表22中，常数项、x2、x3、x4、x6的显著性检验结果都大于0.05，所以，它们与0没有显著性差异，故不应该出现在方程中。

表23中的F值为：

1106.661。

4．去掉这些变量重新进行回归得：

表23：

剔除变量x2、x3、x4、x6后重新回归后的方差分析表

表24：

剔除变量x2、x3、x4、x6后重新回归后的回归方程表

对于重新建立的回归方程可以看出来它的F值上升到1106.661，F值越大，表明回归效果越好。

强行聚类法逐步聚类法

图3：

残差概率分布图

从图3中可以看出来，这些点近似在一条直线上，所以可以认为用这两种方法建立的回归模型的误差正态性检验是合理的。

参考文献：

[1]向东进，李宏伟，刘小雅.实用多元统计分析.中国地质大学出版社.2005.9

[2]方茜.SSPS实用基础指导[J].理论与方法.2005.10

[3]魏志静，刘希玉，赵庆祯.基于SPSS软件与多元线性回归分析理论的分析[J].信息技术与信息化研究与探讨.2006.2

[4]潘淑霞，孙王杰.数据分析与SSPS软件应用[J].吉林医药学院院报.2002.9

[5]何国民，宛燕如.实用统计方法及SPSS操作精要[M].武汉出版社.2002.1

展开阅读全文