常用统计方法文档格式.docx

资源描述

常用统计方法文档格式.docx

《常用统计方法文档格式.docx》由会员分享，可在线阅读，更多相关《常用统计方法文档格式.docx（17页珍藏版）》请在冰豆网上搜索。

常用统计方法文档格式.docx

　　4.主成分Fi表达式；

　　5.主成分Fi命名；

回归分析

　　回归分析（regressionanalysis）是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

运用十分广泛，回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析；

按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。

如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

　　方差齐性

　　线性关系

　　效应累加

　　变量无测量误差

　　变量服从多元正态分布

　　观察独立

　　模型完整（没有包含不该进入的变量、也没有漏掉应该进入的变量）

　　误差项独立且服从（0,1）正态分布。

　　现实数据常常不能完全符合上述假定。

因此，统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。

　　研究一个或多个随机变量Y1，Y2，…，Yi与另一些变量X1、X2，…，Xk之间的关系的统计方法。

又称多重回归分析。

通常称Y1，Y2，…，Yi为因变量，X1、X2，…，Xk为自变量。

回归分析是一类数学模型，特别当因变量和自变量为线性关系时，它是一种特殊的线性模型。

最简单的情形是一个自变量和一个因变量，且它们大体上有线性关系，这叫一元线性回归，即模型为Y＝a＋bX＋ε，这里X是自变量，Y是因变量，ε是随机误差，通常假定随机误差的均值为0，方差为σ^2（σ^2大于0）σ2与X的值无关。

若进一步假定随机误差遵从正态分布，就叫做正态线性模型。

一般的情形，差有k个自变量和一个因变量，因变量的值可以分解为两部分：

一部分是由自变量的影响，即表示为自变量的函数，其中函数形式已知，但含一些未知参数；

另一部分是由于其他未被考虑的因素和随机性的影响，即随机误差。

当函数形式为未知参数的线性函数时，称线性回归分析模型；

当函数形式为未知参数的非线性函数时，称为非线性回归分析模型。

当自变量的个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

　　回归分析的主要内容为：

①从一组数据出发确定某些变量之间的定量关系式，即建立数学模型并估计其中的未知参数。

估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，将影响显著的自变量选入模型中，而剔除影响不显著的变量，通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。

回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。

[编辑本段]

回归分析的应用

　　相关分析研究的是现象之间是否相关、相关的方向和密切程度，一般不区别自变量或因变量。

而回归分析则要分析现象之间相关的具体形式，确定其因果关系，并用数学模型来表现其具体关系。

比如说，从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关，但是这两个变量之间到底是哪个变量受哪个变量的影响，影响程度如何，则需要通过回归分析方法来确定。

　　一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；

如果能够很好的拟合，则可以根据自变量作进一步预测。

　　例如，如果要研究质量和用户满意度之间的因果关系，从实践意义上讲，产品质量会影响用户的满意情况，因此设用户满意度为因变量，记为Y；

质量为自变量，记为X。

根据图8－3的散点图，可以建立下面的线性关系：

　　Y=A+BX+§

　　式中：

A和B为待定参数，A为回归直线的截距；

B为回归直线的斜率，表示X变化一个单位时，Y的平均变化情况；

为依赖于用户满意度的随机误差项。

　　在SPSS软件里可以很容易地实现线性回归，回归方程如下：

　　y=0.857+0.836x

　　回归直线在y轴上的截距为0.857、斜率0.836，即质量每提高一分，用户满意度平均上升0.836分；

或者说质量每提高1分对用户满意度的贡献是0.836分。

　　740）this.width=740"

　　上面所示的例子是简单的一个自变量的线性回归问题，在数据分析的时候，也可以将此推广到多个自变量的多元回归，具体的回归过程和意义请参考相关的统计学书籍。

此外，在SPSS的结果输出里，还可以汇报R2，F检验值和T检验值。

R2又称为方程的确定性系数（coefficientofdetermination），表示方程中变量X对Y的解释程度。

R2取值在0到1之间，越接近1，表明方程中X对Y的解释能力越强。

通常将R2乘以100％来表示回归方程解释Y变化的百分比。

F检验是通过方差分析表输出的，通过显著性水平（significantlevel）检验回归方程的线性关系是否显著。

一般来说，显著性水平在0.05以下，均有意义。

当F检验通过时，意味着方程中至少有一个回归系数是显著的，但是并不一定所有的回归系数都是显著的，这样就需要通过T检验来验证回归系数的显著性。

同样地，T检验可以通过显著性水平或查表来确定。

在上面所示的例子中，各参数的意义如表8－2所示。

　　表8－2线性回归方程检验

指标

显著性水平

意义

0.89

“质量”解释了89％的“用户满意度”的变化程度

276.82

0.001

回归方程的线性关系显著

16.64

回归方程的系数显著

　　示例SIM手机用户满意度与相关变量线性回归分析

　　我们以SIM手机的用户满意度与相关变量的线性回归分析为例，来进一步说明线性回归的应用。

从实践意义讲上，手机的用户满意度应该与产品的质量、价格和形象有关，因此我们以“用户满意度”为因变量，“质量”、“形象”和“价格”为自变量，作线性回归分析。

利用SPSS软件的回归分析，得到回归方程如下：

　　用户满意度＝0.008×

形象＋0.645×

质量＋0.221×

价格

　　对于SIM手机来说，质量对其用户满意度的贡献比较大，质量每提高1分，用户满意度将提高0.645分；

其次是价格，用户对价格的评价每提高1分，其满意度将提高0.221分；

而形象对产品用户满意度的贡献相对较小，形象每提高1分，用户满意度仅提高0.008分。

　　方程各检验指标及含义如下：

“质量”和“形象”解释了89％的“用户满意度”的变化程度

248.53

T（形象）

0.00

1.000

“形象”变量对回归方程几乎没有贡献

T（质量）

13.93

“质量”对回归方程有很大贡献

T（价格）

5.00

“价格”对回归方程有很大贡献

　　从方程的检验指标来看，“形象”对整个回归方程的贡献不大，应予以删除。

所以重新做“用户满意度”与“质量”、“价格”的回归方程如下：

　　用户满意度＝0.645×

用户对价格的评价每提高1分，其满意度将提高0.221分（在本示例中，因为“形象”对方程几乎没有贡献，所以得到的方程与前面的回归方程系数差不多）。

374.69

15.15

5.06

判别分析

1、定义

　　判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

　　其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。

据此即可确定某一样本属于何类。

2、分类

　　根据判别中的组数，可以分为两组判别分析和多组判别分析；

　　根据判别函数的形式，可以分为线性判别和非线性判别；

　　根据判别式处理变量的方法不同，可以分为逐步判别、序贯判别等；

　　根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等

3、应用

　　在气候分类、农业区划、土地类型划分中有着广泛的应用。

　　在市场调研中，一般根据事先确定的因变量（例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众）找出相应处理的区别特性。

在判别分析中，因变量为类别数据，有多少类别就有多少类别处理组；

自变量通常为可度量数据。

通过判别分析，可以建立能够最大限度的区分因变量类别的函数，考查自变量的组间差异是否显著，判断那些自变量对组间差异贡献最大，评估分类的程度，根据自变量的值将样本归类。

系统聚类分析

　　是一门多元统计分类法，根据多种地学要素对地理实体进行划分类别的方法。

对不同的要素划分类别往往反映不同目标的等级序列，如土地分等定级、水土流失强度分级等。

　　系统聚类的步骤一般是首先根据一批地理数据或指标找出能度量这些数据或指标之间相似程度的统计量；

然后以统计量作为划分类型的依据，把一些相似程度大的站点（或样品）首先聚合为一类，而把另一些相似程度较小的站点（或样品）聚合为另一类，直到所有的站点（或样品）都聚合完毕，最后根据各类之间的亲疏关系，逐步画成一张完整的分类系统图，又称谱系图。

其相似程度由距离或者相似系数定义。

进行类别合并的准则是使得类间差异最大，而类内差异最小。

　　特点：

事先无须知道分类对象的分类结构，而只需要一批地理数据；

然后选好分类统计量，并按一定的方法步骤进行计算；

最后便能自然地、客观地得到一张完整的分类系统图。