多元统计分析方法.docx

资源描述

多元统计分析方法.docx

《多元统计分析方法.docx》由会员分享，可在线阅读，更多相关《多元统计分析方法.docx（18页珍藏版）》请在冰豆网上搜索。

多元统计分析方法.docx

多元统计分析方法

多元统计分析概述

一、引言…………………………………………………………3

二、多元统计分析方法的研究对象和主要容……………3

1.多元统计分析方法的研究对象…………………………3

2.多元统计分析方法的主要容…………………………3

三、各种多元统计分析方法…………………………………3

1.回归分析…………………………………………………3

2.判别分析………………………………………………6

3.聚类分析………………………………………………8

4.主成分分析………………………………………………10

5.因子分析………………………………………………10

6.对应分析方法…………………………………………11

7.典型相关分析…………………………………………11

四、多元统计分析方法的一般步骤……………………………12

五、多元统计分析方法在各个自然领域中的应用……………12

六、总结…………………………………………………………13

参考文献…………………………………………………………14

辞………………………………………………………………15

一、引言

统计分布是用来刻画随机变量特征及规律的重要手段，是进展统计分布的根底和提高。

多元统计分析方法则是建立在多元统计分布根底上的一类处理多元统计数据方法的总称，是统计学中的具有丰富理论成果和众多应用方法的重要分支。

在本文中，我们将对多元统计分析方法做一个大体的描述，并通过一局部实例来进一步了解多元统计分析方法的具体实现过程。

二、多元统计分析方法的研究对象和主要容

〔一〕多元统计分析方法的研究对象

由于大量实际问题都涉及到多个变量，这些变量又是随机变量，所以要讨论多个随机变量的统计规律性。

多元统计分析就是讨论多个随机变量理论和统计方法的总称。

其容包括一元统计学中*些方法的直接推广，也包括多个随即便量特有的一些问题，多元统计分析是一类围很广的理论和方法。

现实生活中，受多个随机变量共同作用和影响的现象大量存在。

统计分析中，有两种方法可同时对多个随机变量的观测数据进展有效的分析和研究。

一种方法是把多个随机变量分开分析，一次处理一个随机变量，分别进展研究。

但是，这样处理忽略了变量之间可能存在的相关性，因此，一般丧失的信息太多，分析的结果不能客观全面的反映整个问题，而且往往也不容易取得好的研究结论。

另一种方法是同时对多个随机变量进展研究分析，此即多元统计方法。

通过对多个随即便量观测数据的分析，来研究随机变量总的特征、规律以及随机变量之间的相互关系。

所以，多元统计分析是研究多个随机变量之间相互依赖关系及在统计规律的一门统计学科。

〔二〕多元统计分析方法的主要容

近年来，随着统计理论研究的不断深入，多元统计分析方法的容一直在丰富。

其中，主要容包括多元正态总体参数估计、假设检验和常用的多元统计方法。

多元正态总体参数估计、假设检验是多元统计推断的核心和根底，而常用的多元统计分析方法则是具体应用。

从形式上，常用多元统计分析方法可划分为两类：

一类属于单变量常用的统计方法在多元随机变量情况下的推广和应用，如多元回归分析，典型相关分析等；

另一类是对多元变量本身进展研究所形成的一些特殊方法。

如主成分分析，因子分析，聚类分析，判别分析，对应分析等。

三、各种多元统计分析方法

具体来说，常用的多元统计分析方法主要包括：

多元回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。

下面我们对各种多元统计分析方法就行分别描述，

〔一〕回归分析

回归分析是最灵活最常用的统计分析方法之一，它用于分析一个因变量与一个或多个自变量之间的关系。

特别是用于：

（1）定量的描述和解释相互关系；

（2）估测或预测因变量的值。

回归分析方法是在众多的相关变量中，根据实际问题考察其中一个或多个变量与其余变量的依赖关系。

如果只要考察一个变量与其余多个变量之间的相互依赖关系，我们称为多元回归问题。

假设要同时考察多个因变量与多个自变量之间的相互依赖关系，我们称为多因变量的多元回归问题。

多元回归分析是研究因变量Y与m个自变量

的相关关系，而且总是假设因变量Y为随机变量，而

为一般变量。

下面我们来看一下多元线性回归模型的建立。

假定因变量Y与

线性相关。

收集到的n组数据〔

〕〔t=1,2,···n〕满足以下回归模型：

记

，

则所建回归模型的矩阵形式为

或

并称它们为经典多元回归模型，其中Y是可观测的随机向量，

是不可观测的随机向量，C是矩阵，

是未知参数，并设n>m，且rank（C）=m+1。

在经典回归分析中，我们讨论模型中参数

和

的估计和检验问题。

近代回归分析中讨论变量筛选、估计的改良，以及对模型中的一些假设进展诊断等问题。

我国国生产总值与根本建立投资额的大小有密切关系，研究发现两变量之间存在线性关系。

根据省1990-2003年的国生产总值与根本建立投资额数据，研究它们的数量规律性，探讨省根本建立投资额与国生产总值的数量关系，原始数据见下表。

年份

GDP（亿元〕

根本建立投资（亿元）

1990

242.8

29.04

1991

271.39

33.96

1992

317.79

39.22

1993

372.24

42.89

1994

451.66

58.19

1995

553.35

62.62

1996

714.18

101.42

1997

781.34

121.74

1998

869.75

157.14

1999

931.98

187.49

2000

983.36

208.28

2001

1072.51

228.63

2002

1161.43

263.06

2003

1304.6

307.3

利用e*cel进展分析，具体输出以下数据，

平方和

自由度

方差

F检验值

回归

1553189.7

残差

59475.667

4956.3056

313.3765001

离差

1612665.4

复相关系数R=.5333

剩余标准差SY=70.48

回归方差与剩余方差之比F=313.3

各个自变量的t检验值

17.70244334

t检验的自由度N-P-1=12

F检验的自由度

第一自由度=1,第二自由度=12

各个自变量的偏回归平方和

1553189.7

各个自变量的偏相关系数

0.981386594

由输出结果，得以下结论：

回归方程为y=232.70+3.68

其中，负相关系数为

＝0.9814,说明回归方程拟合优度较高。

而回归系数的t=17.7024,查t分布表

，小于t值，因此回归系数显著。

查F分布表，

4.75，由下表知，F=313.3765>4.75，因此回归方程也显著。

平方和

自由度

方差

F检验值

回归

1553189.7

313.3765001

残差

59475.667

4956.3056

离差

1612665.4

〔二〕判别分析

判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法，是一种在研究对象用*种方法已经分成与假设干类的情况下，确定新的样品属于哪一类的多元统计分析方法。

判别方法处理问题时，通常通常要给出用来衡量新样品与各组别的接近程度的指数，即判别函数，同时也指定一种判别准则，借以判别新样品的归属。

所谓判别准则是用于衡量新样品与各组别接近程度的理论依据和方法准则。

常用的有，距离准则、Fisher准则、贝叶斯准则等。

距离判别的根本思想是：

样品和那个总体距离最近，就判断它属于哪个总体。

距离判别也称直观判别。

有两个类

和

，比方

是设备A生产的产品，

是设备B生产的同类产品。

设备A的产品质量高〔如考察指标为耐磨度*〕，其平均耐磨度

=80，反映设备精度的方差

=0.25；设备B的产品质量稍差，其平均耐磨度

=75，反映设备精度的方差

=4。

今有一产品

，测得耐磨度

=78，试判断该产品是哪一台设备生产的？

下面考虑一种相对于分散性的距离。

记

与

或

的相对平均距离为

或

，则有：

=16，

=2.25。

因为

=1.5<4=

，按这种距离准则应判

为设备B生产的。

一般的，我们假设总体

的分布为

，总体

的分布为

，则利用相对距离的定义，可以找出分界点

和

〔不妨设

〕，令

，和*=

。

此例中，

=79，

=81.6667。

而按这种距离最近法则的判别法为：

为了区分小麦品种的两种不同的分蘖类型，用

三个指标求其判别函数。

经历样品中，第一类取11〔主茎型〕个样品，第二类〔分蘖型〕取12个样品，数据如下表所示。

第

一

类

〔主茎型〕

判别归类

第二类〔分蘖型〕

判别归类

0.713.8012.001

0.783.8612.171

1.002.105.701

0.701.705.901

0.301.806.101

0.603.4010.201

1.003.6010.201

0.503.5010.501

0.505.0011.501

0.714.0011.251

1.004.5012.002

1.004.2515.162

1.003.4316.252

1.003.7011.402

1.003.8012.402

1.004.0013.602

1.004.0012.802

1.004.2013.402

1.004.3014.002

1.005.7015.802

1.004.7020.402

1.004..6014.002

1.004.5614.602

0.70913.38739.7746

0.984.2714.4842

由表计算得

－

=（-0.2742，-0.882，-4.7096

=（0.8462,3.8287,12.1293）

用

对经历样本的23个样品进展判别有如下结果：

第一类的11个样本中有10个判别为第一类，一个判别为第二类；第二类的12个样品全部判别为第二类，符合率为22/23=96%。

例如，第一类第一个样品

，则

=0.6819>0,则

〔第一类〕。

又如，第一类的第11个样品

，

=-0.3083<0，故

〔第二类〕。

将

投入使用，可判别小麦品种的分蘖类型，如测得*小麦品种

则由

=-2.9128<0判别该品种为分蘖型。

〔三〕聚类分析

聚类分析是将样品或变量按照它们在性质上的亲疏程度进展分类的多元统计分析方法。

聚类分析时，用来描述样品或变量的亲疏程度通常有来两个途径，一是把每个样品或变量看成

展开阅读全文