SPSS3.ppt - 冰豆网

资源描述

SPSS3.ppt

《SPSS3.ppt》由会员分享，可在线阅读，更多相关《SPSS3.ppt（29页珍藏版）》请在冰豆网上搜索。

SPSS3.ppt

常用统计分析软件的应用,SPSS15.0forWindows,主讲：

敖雁电话：

7979358Email：

2.5相关和回归分析,相关分析一元线性回归分析多元线性回归分析曲线拟合非线性回归分析,2.5相关和回归分析,相关分析和回归分析的任务研究对象：

统计关系相关分析旨在测度变量间线性关系的强弱程度。

回归分析侧重考察变量之间的数量变化规律，并通过一定的数学表达式来描述这种关系，进而确定一个或几个变量的变化对另一个变量的影响程度。

2.5相关和回归分析,目的通过样本数据，研究两变量间线性相关程度的强弱。

（例如：

职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系）基本方法绘制散点图、计算相关系数绘制散点图的方法【Graphs】【Scatter】,实例,实例,2.5.1相关系数,作用:

以精确的相关系数（r）体现两个变量间的线性关系程度.r:

-1,+1;r=1:

完全正相关;r=-1:

完全负相关;r=0:

无线性相关。

说明:

相关系数只是较好地度量了两变量间的线性相关程度，不能描述非线性关系。

数据中存在极端值时效果不好。

步骤【Analyze】【Correlate】【Bivariate】,简明分析过程,2.5.2一元线性回归方程,一元回归方程:

Y=a+bXa为常数项；b为Y对X回归系数，即:

X每变动一个单位所引起的Y的平均变动回归方程的显著性检验

（1）目的:

检验自变量与因变量之间的线性关系是否显著，是否可用线性模型来表示.

（2）检验方法t检验F检验（一元回归中,F检验与t检验一致,即:

F=t2,两种检验可以相互替代）步骤【Analyze】【Regression】【Linear】,简明操作步骤,2.5.3多元线性回归分析,多元线性回归方程多元回归方程:

Y=0+1X1+2x2+.+kxk1、2、k为偏回归系数。

1表示在其他自变量保持不变的情况下，自变量X1变动一个单位所引起的因变量Y的平均变动多元线性回归分析的主要问题回归方程的检验自变量筛选多重共线性问题,实例1,2.5.3多元线性回归分析,逐步回归分析当对显著的多元线性回归方程中各个回归系数进行显著检验都为显著时，说明各个自变量对依变量的单纯影响都是显著的。

若有一个或几个偏回归系数经显著性测验为不显著时，说明其对应的自变量对依变量的作用或影响不显著，或者说这些自变量在回归方程中是不重要的，此时应该从回归方程中剔除一个不显著的偏回归系数对应的自变量，重新建立多元线性回归方程，再对新的多元线性回归方程或多元线性回归关系一击各个新的偏回归系数进行显著性检验，直至多元线性回归方程显著，并且各个偏回归系数都显著为止。

此时建立的多元线性回归方程即为最优多元线性回归方程。

2.5.3多元线性回归分析,自变量筛选法Enter:

所选择的自变量将全部进入建立的回归方程中，该项为默认方式。

对一元线性回归采用较多。

Remove：

将进入方程中的自变量同时剔除。

Forward：

向前筛选法，是自变量不断进入回归方程的过程。

Backward：

向后筛选法，是自变量不断剔除出回归方程的过程。

Stepwise：

逐步筛选法，是“向前法”和“向后法”的结合,实例,简明操作步骤,2.5.4曲线拟合,目的:

在一元回归分析或时间序列中，因变量与自变量（时间）之间的关系不呈线性关系，但通过适当处理,可以转化为线性模型。

可进行曲线估计。

步骤【Analyze】【Regression】【CurveEstimation】,实例,简单操作步骤,2.5.5非线性回归分析,意义非线性回归过程建立因变量与一组自变量之间的非线性关系。

非线性模型可以在自变量与因变量之间达成某种模型，这些任务的完成是依靠迭代估计运算获得。

步骤【Analyze】【Regression】【Nonlinear】注意在【ModelExpression】框中输入一个合适的方程，在该方程中，包括变量、参数和常数等。

必须为每个参数设置初始值。

实例,简单操作步骤,2.6聚类分析,聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，然后根绝这种统计量把元素分成若干类。

常用的聚类分析统计量有距离系数和相似系数两类。

距离系数一般用于对样品分类，而相似系数一般用于对变量聚类。

聚类的定义很多，如极端距离、明考斯基距离、欧式距离、切比学夫距离等。

相似系数有相关系数、夹角系数、列联系数等。

2.6聚类分析,K-meansCluster过程（快速聚类法）HierarchicalCluster过程（系统聚类法）,2.6.1HierarchicalCluster过程,系统聚类法先将n个元素（样品或变量）堪称n类，然后将性质最接近（或者是相似程度最大）的两类合并成一个新类，得到n-1类。

再从中找出最接近的两类加以合并，变成n-2类。

如此下去，最后所有的元素聚在一类之中。

系统聚类法是目前用得最多的一种方法。

基本思想是逐步将距离近的类合并在一起。

由于在新类中不止存在一个样品，所以先要定义类与类之间的距离（定义距离的方法不同，形成了不同的系统聚类方法），然后将距离最小的类合并，每次合并至少要减少一类。

如此下去，一直到所有样品合并成一类为止。

常用的系统聚类法有几种：

最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法和离差平方和法等。

K-meansCluster过程,快速聚类适合大样本的聚类分析，能够快速的将观测量分到各类中去。

一般适用于含200个以上观测量的大数据文件的聚类分析。

2.7非参数检验,非参数检验的意义非参数检验是不依赖于总体分布的统计推断方法，是指在总体不服从正态分布且分布情况不明时，用来检验数据资料是否来自同一总体假设的一类检验方法。

由于这些方法一般不涉及总体参数而得名。

假设前提比参数假设检验方法少得多，也容易满足，适用于计量信息较弱的资料且计算方法也简便易行，在实际中备广泛应用。

常用的非参数测验的方法,Chi-squaretest卡方测验用来检验给定的概率值下数据来自同一总体的无效假设的方法。

卡方检验适用于配合度检验，只要用于分析实际频数于理论频数是否相符。

Binomialtest二项分布检验检验二项分类变量是否来自概率为P的二项分布。

展开阅读全文