多元统计分析东北大学秦皇岛分校.docx

资源描述

多元统计分析东北大学秦皇岛分校.docx

《多元统计分析东北大学秦皇岛分校.docx》由会员分享，可在线阅读，更多相关《多元统计分析东北大学秦皇岛分校.docx（61页珍藏版）》请在冰豆网上搜索。

多元统计分析东北大学秦皇岛分校.docx

多元统计分析东北大学秦皇岛分校

多元统计分析实验指导书

李喆编写

东北大学秦皇岛分校

二○一六年五月

前言

本课程为金融学专业大二学生的专业平台课。

通过本课程的学习，使学生掌握多元统计分析的基本概念、基本原理和基本结果及各种多元统计分析方法的背景、功能、作用、计算方法及实际应用，能够利用SPSS软件运行数据处理方法，从而为学会如何通过建立模型对现实的经济生活进行分析模拟，为实证分析打下一定的理论基础

实验一熟悉SPSS软件4

实验二假设检验、相关分析和回归分析22

实验三聚类分析36

实验四主成分分析和因子分析，对应分析40

实验一熟悉SPSS软件

[实验目的]

1、利用SPSS软件建立数据文件；

2、利用SPSS软件进行基本的统计分析；

3、学会使用SPSS软件统计绘图；

[实验内容]

一、熟悉SPSS界面

（一）启动方法

启动方法：

开始→程序→SPSSInc→SPSS16.0。

（二）SPSS的主窗口

启动SPSS16.0后，弹出一个选择对话框，可以选择打开已经存在的数据文件，也可以做出其他选择。

各选项分别对应：

运行指南；数据录入；运行已存在的查询；使用数据库向导建立一个新的文件；打开已存在的数据文件*.sav/*.sys；打开其它类型的数据文件*.xls/*.txt/*.dat；运行SPSS时不显示该对话框。

（三）数据编辑窗口

菜单栏包括：

File：

文件操作。

完成文件的打开、新建、

保存、打印和关闭等操作

Edit：

文件编辑。

完成文本或数据内容的

选择、复制、剪贴、查找和替换等操作

View：

浏览编辑。

完成文本或数据内容的

状态栏、工具栏、字体、网格线和数值标签

等功能的操作

Data：

数据管理。

完成数据变量名称和格式

的定义，数据资料的选择、排序、加权，数

据文件的转换、连接和汇总等操作

Transform：

数据转换。

完成数据的计算、

重新编码和缺失值替代等操作

Analyze：

数据分析。

完成基本统计分析、均值比较、相关分析、回归分析、聚类分析、因子分析、对应分析等一系列统计分析方法的选择与应用

Graphs：

制作统计图形。

完成条形图、饼形图、直方图、散点图等统计图形的制作与编辑。

Utilities：

实用程序。

有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等。

Add-ons：

附加

Windows：

窗口控制。

可进行窗口的排列、选择和显示等

Help：

帮助

二、利用SPSS软件建立数据文件

（一）变量的定义

窗口视图中有“VariableView”标签和“DataView”标签。

单击“VariableView”标签，定义变量。

每一个变量须定义如下属性：

Name；Type；Width；Decimals；Label；Values；Missing；Columns；Align；Measure。

1、Name：

变量名称，其总长度不能超过64个字符（32个汉字）。

定义变量名应注意：

①以字母为首，后面跟A～Z，0～9字符；

②不允许以数字、横线或下划线开头；

③“？

”、“！

”、“/”等不能作为变量名。

④可以用汉字做变量名。

2、Type

变量类型，单击变量类型，弹出VariableType对话框，有8种类型可供选择Numeric；Comma；Dot；Scientificnotation；Date；Dollar；CustomCurrency；String；

3、Width

数据或字符串的宽度，默认的变量长度是8位。

当变量为某些特定类型时，该设置无效，如日期型变量。

4、Decimals

小数位数。

默认的小数位数是2位

5、Label

变量标签。

用来说明变量代表的实际意义。

建议使用中文。

6、Values

变量值标签。

对变量可能取值附加的进一步说明。

对分类变量往往要定义其取值的标签。

7、Missing

缺失值，单击“Missing”按钮：

①NoMissingValues：

没有缺失值。

②Discretemissingvalues：

离散缺失值。

③Rangeplusoneoptionaldiscretemiss：

定义缺失值范围

8、Columns

显示数据的宽度。

定义数据在屏幕上该变量对应列的显示列宽。

默认值为8个字符，范围是1～255。

显示宽度不影响机内值和分析运算结果，只影响显示。

9、Align

字符排列方向。

10、Measure

数据测量类型。

是指变量是如何测量的，

可有3种选择

①Scale：

尺度变量（连续变量）。

是默认的类型，即使用距离或比率量尺测量的数据。

Scale可以是数值型、日期型和货币型变量，但不能是字符串型变量。

例如，身高和体重。

Ordinal：

顺序变量。

是指变量之间的顺序有实际意义，但没有距离关系。

顺序变量可以用有序的数字作为代码，设置了值标签的变量被认为是有序的分类变量，可以作为分组变量，也可以参与某些分析过程的运算。

Ordinal可以是数值型和字符串型变量。

③Nominal：

分类变量。

分类变量值之间没有顺序关系，只能作为分组变量使用。

Nominal与Ordinal一样，只是不要求变量有次序关系。

（二）数据的输入

单击“DataView”标签，从数据编辑器中输入数据。

（三）数据的编辑

1．修改数据：

找到想要修改的数据，双击，修改

2．插入或删除一行数据

3．插入或删除一个变量（列）

（四）数据文件的合并

1．横向合并数据文件

（1）打开第一个数据文件。

（2）单击Data→MergeFile→AddVariables

（3）单击“OK”按钮

注意事项：

两个文件中有重复的关键变量，要保证关键变量中间不要缺少数字，如果有不足的必修不足之后才能进行合并，否则会出现错误结果。

2．纵向合并数据文件

纵向合并数据文件就是将一份数据按观测量分成几部分，然后分别输入数据并存储为几个较小的SPSS观测量数据文件，最后将这几个观测量数据文件中的数据上下对接，进行纵向合并。

SPSS纵向合并数据文件的操作过程如下:

（1）打开第一个数据文件

（2）单击菜单Data→MergeFile→AddCases

（3）若要求合并后的数据能看出来自哪个数据文件，可以选Indicatecasesourceasvariable项，操作同横向合并数据文件。

（4）单击“OK”按钮

三、用SPSS进行基本统计分析

（一）数据整理

1．数据排序

（1）选择菜单Data→SortCases，弹出一个SortCases对话框。

（2）将主排序变量从左面的列表框中选到右侧的Sortby框中，并在SortOrder选项中选择按该变量的升序（Ascending）还是降序（Descending）排序。

（3）单击“OK”按钮

2．分类汇总

选择菜单Data→Aggregate项，弹出一个AggregateData对话框

3．数据变换

数据变换是在原有变量数据的基础上，计算产生一些含有更丰富信息的新数据。

选择菜单Transform→Compute，弹出ComputeVariable对话框。

（二）数据分组

数据分组就是根据统计研究的需要，将数据按某种标准重新划分为不同的组别。

1．单项式分组

（1）选择菜单Transform→AutomaticRecode，弹出AutomaticRecode对话框。

（2）将对话框左侧列表框的分组变量选择到右侧的Variable→NewName框中。

（3）在“NewName”按钮右侧的框内输入存放分组结果的新变量名，并单击“NewName”按钮。

（4）在“RecodeStartingfrom”选项中选择单项式分组按升序还是按降序）进行。

（5）单击“OK”按钮

2．组距式分组

组距式分组是将全部变量值依次划分为若干个区间，并将这一区间的变量值作为一组。

（1）确定分组：

首先将原始资料按升序进行排列并计算极差R；

其次由斯特吉斯经验公式确定组数和组距，

即组数k=1+3.322lgN，组距d=R/k；

最后确定组限。

取第一组下限略高于最小变量值，则该组上限=该组下限+组距。

（2）选择菜单Transform→VisualBinning

（三）计算基本描述统计量

1、标准化：

SPSS提供了计算描述统计量的功能，它可以将原始数据资料转换成标准化值并以变量的形式存入数据编辑窗口中，公式：

运行：

Analyze→DescriptiveStatistics→Descriptives

（四）频数分析

SPSS提供：

频数分布表，基本描述统计量，统计图（条形图、饼形图和直方图）

四、统计绘图

（一）统计图的绘制

1．条形图（Bar）

Graphs→Bar

2．饼形图（Pie）

Graphs→Pies

3．线形图（Line）：

Graphs→Line

4．散点图（Scatter）：

Graphs→Scatter

（二）统计图的编辑1．图形编辑窗口、设置图形中的数值标签

2．转换坐标轴

3．分离饼图

4．改变散点图点的样式、修饰图形

实验二假设检验、相关分析和回归分析

[实验目的]

1、利用SPSS软件进行假设检验；

2、利用SPSS软件进行相关分析；

3、利用SPSS软件进行回归分析；

[实验内容]

一、利用SPSS软件进行假设检验

（一）单一样本t检验

选择选项Analyze→Comparemeans→One-SamplesTtest.

1.界面说明

【TestVariables框】

用于选入需要分析的变量。

【TestValue框】

在此处输入已知的总体均数，默认值为0。

【Options】

弹出Options对话框，用于定义相关的选项，有：

ConfidenceInterval框输入置信概率，默认为95%。

MissingValues单选框组

Excludescasesanalysisbyanalysis—在参与计算的数据中有缺失值的不参与计算

Excludescaseslistwise—所有数据中有缺失值的不参与计算

2、结果解释

（二）独立样本T检验

选择选项Analyze→Comparemeans→Independent-SamplesTtest.

1.界面说明

【TestVariables框】选入检验变量（输入全部数据）（如成绩）。

【GroupingVariable框】存放分组变量（如组别）

【DefineGroups框】UsespecifiedValues:

输入分组变量值（如1和2）。

CutPoint：

用于连续变量，输入一个值作为分割值，将数据分为两组．

【Options钮】

和One-SamplesTTest对话框的Options钮完全相同，此处不再重复。

2、结果解释

P>0.05，可认为两总体方差无显著差异.

第二步：

两总体均值的检验（第3大列）

由于两总体方差无显著差异，因此应看第一行的结果。

T值为1.704，对应的双侧概率p值为0.100>=0.05，认为两总体的均值无显著差异.

第7列：

t统计量的分子

第8列：

t统计量的分母

第9和10列：

两总体均值差的95%的置信区间

（三）配对样本t检验

功能实际上是和One-SamplesTTest过程相重复的（等价于已知总体均数为0的情况）.

选择选项Analyze→Comparemeans→Paired-SamplesTtest.

（四）单因素方差分析过程

选择选项Analyze→Comparemeans→One-WayANOVA.

1.界面说明

【DependentList框】选入观测变量（指标）（输入全部数据）

【Factor框】选入因素变量（因素总名称）（输入因素水平1，2，3等）

【Contrast按钮】

弹出Contrast对话框，用于对精细趋势检验和精确两两比较的选项进行定义，由于该对话框太专业，也较少用，略。

二、利用SPSS软件进行相关分析和回归分析

（一）用SPSS软件绘制散点图

基本操作步骤:

选择菜单Graphs→Scatter

选择散点图的类型

Simple-简单散点图（2个变量）***

Define按钮：

因变量Ｙ放入Y-Axis,自变量X放入X-Axis，其他项可以省略．

Overlay-重叠散点图：

多对变量

Matrix-矩阵散点图：

以方形矩阵的形式显示多对变量

3-D-三维散点图：

以立体图的形式显示三对变量

（二）用SPSS统计软件计算相关系数

1、界面说明：

（1）选择菜单Analyze-Correlate-Bivariate

（2）Variables框：

存放参加计算相关系数的变量。

（3）CorreiationCoefficients项：

Pearson:

简单相关系数，用于连续变量或等间距测度的变量．

Spearman:

等级相关系数，用来度量定序变量．

Kendall’stau-b:

等级相关系数，用来度量定序变量

（4）TestofSignificance项

Two-tailed:

双尾检验

One-tailed:

单尾检验

（5）FlagsignificantCorrelations项

在相关系数上用“＊”表出检验结果，“＊”表示显著水平为0.05，“＊＊”表示显著水平为0.01.

（6）Options按钮

Statistics:

Meansandstandarddeviations:

输出均值和标准差

Cross-productdeviationsandcovariances:

输出叉积离差阵和协方差阵

MissingValues:

Excludecasespairwise:

剔除本计算变量含有缺失值的数据

Excludecaseslistwise:

剔除所有计算变量含有缺失值的数据

2、结果解释

相关系数为0.961，P＝0.000＜0.01，高度显著，说明两者之间高度线性相关．

（三）线性回归分析SPSS操作步骤

1、回归分析操作步骤

选择Analyze→Regression→Linear

将因变量Y放入Dependent框，将自变量X放Independents框，在Method中选择默认的方法“Entre”,回归方程中保留全部变量．

按Statistics按钮：

Estimates:

SPSS默认输出项，输出与回归系数相关的统计量．包括回归系数、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率P值。

ConfidenceIntervals:

输出每个非标准化回归系数的95%的置信区间。

Modelfit:

SPSS默认输出项，输出相关系数、判定系数、调整的判定系数、回归方程的标准误差、回归方程显著Ｆ检验、方差分析表。

Descriptive:

输出个变量的均值、标准差、相关系数矩阵、单侧检验概率Ｐ值。

按Save按钮：

选择PredictedValues:

保存非标准化预测值（点预测）（Unstandardized）

选择Residuals:

保存非标准化残差（实测值与预测值之差）（Unstandardized）

2、结果解释

度显著

（四）曲线回归分析SPSS操作步骤

选择Analyze→Regression→CurveEstimation

1.Dependent框：

存放因变量y

2.Independent框：

存放自变量x

Time:

以时间序列作为自变量

3.CaseLabels框：

变量值作为散点图中的点标记

4.Includeconstantinequation项：

方程中包含常数项

5.Plotmodels项：

曲线模型选择栏，有11种曲线．

（1）Linear-线性方程Y=a+bx

（2）Logarithmic-对数曲线方程Y=a+blnx

（3）Inverse-倒数曲线方程Y=a+b/x

（4）Quadratic-二次项曲线方程Y=a+bx+cx2

（5）Cubic-三次曲线方程Y=a+bx+cx2+dx3

（6）Power-幂曲线方程Y=axb

（7）Compound-复合曲线方程y=a×bx

（8）S-S型曲线方程y=e（a+bx）

（9）Logistic-曲线方程y=1/（1/u+（a×bx））其中,u为上限值，须为正数且大于最大的因变量的值Upperbound:

输入数值，作为上限值．

（10）Growth-拟合等比级数曲线方程Y=ea+bx

（11）Exponential-指数曲线方程Y=aebx

6.DisplayANOVATable项：

结果中显示方差分析表

7.Save按钮：

（1）Predictedvalue：

保存预测值

（2）Residuals:

保存残差值

（3）Predictedintervals：

保存预测区间

（4）%Confidenceinterval：

选择置信度

8.PredictCases项

自变量为时间变量时使用

（1）Predictfromestimationperiodthroughlastcase

根据事先设定的估计周期（使用Data-SelectCases-Baseontimeorcaserange项定义）．

（2）Predictthrough:

在Observation中输入预测周期的末端值．

（3）TheEstimationPeriodisAllcases项：

显示当前的估计周期．

比较各种曲线拟合方程的估计标准误差和F值，估计标准误差最小的方程拟合最好。

实验三聚类分析

[实验目的]

1、利用SPSS软件进行聚类分析；

[实验内容]

一、用SPSS进行聚类分析

聚类分析是根据研究对象的特性，对样本或变量进行定量分类的一种多元统计方法。

（一）操作过程

菜单Analyze→Classify→HierarchicalCluster,

弹出HierarchicalClusterAnalysis对话框。

1、系统聚类方法

Between-groupslinkage：

类间平均连接法

Medianclustering：

中间距离法

Centroidclustering：

重心法

Furthestneighbor：

最长距离法

Nearestneighbor：

最短距离法

Within-groupslinkage：

类内平均连接

Ward’smethod：

离差平方和法法

2、距离

Euclideandistance：

欧氏距离。

SquaredEuclideandistance：

欧氏距离的平方。

Cosine：

夹角余弦。

Pearsoncorrelation：

皮尔逊相关系数。

Chebychev：

切比雪夫距离，即最大绝对值距离。

Block：

绝对值距离和。

Minkowski：

闵可夫斯基距离。

Customized：

自定义距离。

3、数据标准化变换

None：

不做变换

Z-Scores：

使各变量的均值为0，标准差为1

Range-1to1：

使各变量值在-1到1之间变化。

Range0to1：

使各变量值在0到1之间变化。

Maximummagnitudeof1：

使各变量值最大值为1。

Meanof1：

使各变量值平均值为1。

Standarddeviationof1：

使各变量值标准差为1。

（二）聚类过程的表示

1、聚类进度表（AgglomerationSchedule）

第一列表示聚类顺序（步骤号）

第二三列表示每一步被合并的对象（这里是地区）

第四列表示被合并的两类之间的距离，也称为聚合系数，该值越大，说明类间差异越大。

距离按从小到大排列，越早合并的类距离越近。

第五六列表示被合并的两类上一次合并分别是在哪一步形成的，“0”表示被合并的类为单个样品

最后一列表示每一列形成的新类将在哪一步参与下一次合并

2、树状聚类图（Dendrogram）

3、冰状图（IcicalPlot）

纵向冰状图（vertical）：

横向表示样品，纵向表示类数

第一列（NumberofClusters）表示分成的类数。

观察冰柱图应从下往上看。

在“Case”下所有列中，如果最近相连的两个样品列中间出现符号“X”相连，则表示这两个样品已合并成一类，否则在该步聚类时属于不同的两类。

实验四主成分分析和因子分析，对应分析

[实验目的]

1、利用SPSS软件进行主成分分析；

2、利用SPSS软件进行因子分析；

3、学会使用SPSS进行对应分析；

[实验内容]

一、利用SPSS软件进行主成分分析

（一）操作步骤

（二）结果解释

单位根由大到小排列，可以看到每个主成分的贡献率以及累积贡献率，前两个主成分累积贡献率高达98.136%，这意味着前两个主成分包含了原有5个指标的98.136%的信息，因此可以取前两个主成分来代替原有5个指标。

碎石图，显示前两个主成分的特征值接近1及以上

到第三个趋于平缓，因此应取前两个主成分

成分矩阵，用P来表示X

得分系数矩阵，用X来表示P

二、利用SPSS软件进行因子分析；

（一）操作步骤

1、数据标准化

2、因子分析

（二）结果解释

球型检验的显著性水平为0.000，拒绝原假设说明各变量各自不全独立，可以进行因子分析。

KMO值较小，说明各变量间相关性不高，不太适合进行因子分析，如果非要进行因子分析的话，需要选取较多的公因子。

变量共同度，表明采用因子分析可以反映原变量中极大部分的信息

分别是初始的特征值，提取主成分后的特征值，和旋转后的因子对应的特征值和方差贡献率，前三个公因子的累计贡献率达到89.588%，碎石图也得到了相似结论。

碎石图得到了跟前面相同的结论

分别是未旋转和旋转之后的因子载荷矩阵，可以看出每个变量在某个公因子上有较高的载荷。

GDP、工业总产值、固定资产投资和货物周转量在第一因子上有较高载荷，因此，第一因子命名为总量因子；职工平均工资、居民消费水平在第二因子上有较高载荷，因此，第二因子命名为收支因子；居民消费价格指数、商品零售价格指数在第三因子上有较高载荷，因此第三因子命名为价格因子

因子得分的系数矩阵，计算得到的因子得分作为新变量存放在数据文件中，可以进行后续的评价和分类

给出了因子得分的协方差矩阵，各因子之间是正交的，即彼此相互独立。

（三）根据因子得分进行综合评估

以提取的3个公因子的方差贡献率作为权重，结合各因子得分，建立综合评价模型：

三、学会使用SPSS进行对应分析；

同一直角坐

展开阅读全文