多元统计实验模板.docx

上传人:b****3 文档编号:2951112 上传时间:2022-11-16 格式:DOCX 页数:21 大小:136.11KB
下载 相关 举报
多元统计实验模板.docx_第1页
第1页 / 共21页
多元统计实验模板.docx_第2页
第2页 / 共21页
多元统计实验模板.docx_第3页
第3页 / 共21页
多元统计实验模板.docx_第4页
第4页 / 共21页
多元统计实验模板.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

多元统计实验模板.docx

《多元统计实验模板.docx》由会员分享,可在线阅读,更多相关《多元统计实验模板.docx(21页珍藏版)》请在冰豆网上搜索。

多元统计实验模板.docx

多元统计实验模板

 

 

学生实验报告

 

学生实验报告

 

学生姓名

学号

同组人

实验项目

□必修□选修

□演示性实验□验证性实验□操作性实验□综合性实验

实验地点

G403

实验仪器台号

指导教师

徐海云

实验日期及节次

一、实验目的及要求:

1、目的

本实验将综合利用所学的统计知识,搜集相关数据,然后将数据进行输入,并选用本课程所学的适当方法进行分析,写出分析结果。

实验中的统计方法要采用本课程所学描述性统计、因子分析,多元回归分析等统计方法,并写出软件分析步骤及相应的结果。

2、内容及要求

掌握SPSS的基本概念,熟悉SPSS分析的基本程序和基本方法

1、学习SPSS相关程序,熟悉相关操作

2、了解SPSS的基本分析步骤,分析思路,判定方法,建立模型的方法

3、提交实验报告

二、仪器用具:

仪器名称

规格/型号

数量

备注

计算机

1

有网络环境

《多媒体会计模拟实验室》系统

1

三、实验方法与步骤:

1.因子分析的目的

利用因子分析的基本目的是,用少数几个因子去描述许多指标或多个因素之间的联系,即将相互之间的关系比较密切的几个变量归在同一类别之中,每一类变量就成为一个因子。

因子分析以较少的几个因子反映原资料的大部分信息。

2、分析步骤

1)依次单击AnalyzeDataReductionFactor,打开FactorAnalysis对话框。

打开数据文件:

数据.sav,单击AnalyzeDataReductionFactor,打开FactorAnalysis对话框。

2)将因子分析变量人身保险收入,GDP,年进口额和利率选入Variables栏内。

3)单击“Descriptives”按钮,打开Descriptives对话框,选择Initialsolution复选项。

4)单击“Extraction”按钮打开Extraction对话框,选择Principalcomponents复选项。

5)单击“Rotation”按钮,打开Rotation对话框,选择Varimax复选项。

6)单击“Scores”按钮,打开FactorScores对话框,选择Regression复选项。

单击OK,进行分析。

(2)判别分析

1)操作步骤:

Analyze-Classify-Discriminant

2)打开DiscriminantAnalysis对话框,将对话框左侧变量列表中的Group选入GroupingVariable框,并点击DefineRange钮,在弹出的DiscriminantAnalysis:

DefineRange对话框中,定义判别原始数据的类别区间,输入Min=1,Max=3,点击Continue钮返回DiscriminantAnalysis对话框。

3)点击Statistics钮,弹出DiscriminantAnalysis:

Statistics对话框,在Descriptive栏中选means项,要求对各组的各变量做均值与标准差的描述;在FunctionCoefficients栏中选相应的方法,要求显示费谢尔判别法建立的非标准化系数。

之后,点击continue返回。

点击Save钮,弹出对话框中,选Predictedgroupmembership项要求将回判的结果存入原始数据库中,其他项目不变,点击OK即可完成分析。

四、实验结果与数据处理:

1.在一项研究广东省部分地市的经济发展水平的课题中,选定了城镇人口比例、平均工资、固定资产投资额、通信服务居民消费、港口货物吞吐量、外商投资额、货运周转量、工业企业总资产贡献率、出口总额、第三产业产值比重、环境治理系数、每万人医务人员数、研究与试验发展经费、人均GDP增长率、地区生产总值等15个指标构成指标体系。

具体数据见广东省各地经济发展主要指标.xls。

要求:

(1)取显著性水平为0.05,假定16个地市被划分为4个区域,按顺序每4个市为一个区域,试检验不同区域间均值向量是否相等(请附上相关输出表格)。

(2)对16个地区按经济发展水平进行系统聚类分析,请输出组间平均链接法及重心法的聚类分析结果(请附上凝聚顺序表、树状图);

(3)上述两种方法聚类结果相同吗?

如不同,你更愿意接受哪一种结果?

为什么?

(比如你认为应该分几类,并对每一类的特征进行必要的描述,并附上各组成员列表)。

答案:

(1)首先将这16个地区按顺序分成四个组,然后进行两独立样本均值检验,即可以检验不同区域间的均值是否相等,检验结果如下:

多变量检验c

效应

F

假设df

误差df

Sig.

截距

Pillai的跟踪

1.000

225189.098a

12.000

1.000

.002

Wilks的Lambda

.000

225189.098a

12.000

1.000

.002

Hotelling的跟踪

2702269.171

225189.098a

12.000

1.000

.002

Roy的最大根

2702269.171

225189.098a

12.000

1.000

.002

序列号

Pillai的跟踪

2.690

2.172

36.000

9.000

.109

Wilks的Lambda

.000

10.961

36.000

3.682

.020

Hotelling的跟踪

.

.

36.000

.

.

Roy的最大根

12344.120

3086.030b

12.000

3.000

.000

a.精确统计量

b.该统计量是F的上限,它产生了一个关于显著性级别的下限。

c.设计:

截距+序列号

结论:

根据上述检验可以得出,不同地区均值向量存在显著差异。

(2)1)组间平均链接法的聚类分析结果

图1组间平均链接法的凝聚顺序表

图2组间平均联结法的树状图

2)重心法的聚类分析结果

图3重心法的凝聚顺序表

图4重心法的树状图

(3)从

(2)我们可以看出,利用组间平均链接法及重心法的聚类结果相同。

如果不同,我更愿意选择组间平均链接法。

因为重心法虽然有很好的代表性,但并未充分利用各样本的信息。

建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,这就是类平均法。

类平均法是聚类效果较好、应用比较广泛的一种聚类方法。

从上述聚类冰状图中可以看出,如果分三类,那么可以得到如下分类结果:

【1、广州、深圳】【2、惠州、江门、茂名、中山、珠海、汕头、湛江、河源、汕尾、梅州、阳江、韶关】【3、佛山和东莞】。

对于以上结果,我们可以从地区经济发展水平层次上来理解所做的分类。

第一类广州和深圳是经济最先发展的地区,众所周知,这两个城市在广东经济发展水平处于领先地位;而第二类城市在广东省内比较经济发展水平和城市对外的经济联系程度相对要差一下,这可能是和地理位置有着关系;第三类是广东省除广州深圳以外经济比较突出的城市。

佛山比较突出的是小家电,而东莞是全国有名的工厂聚集的地方,故这两个城市为一类。

2.为研究某地区育龄妇女的生育状况,指标及原始数据见育龄妇女生育状况.xls。

将12个已知样品分为两类,试对待判样品进行归类。

要求:

(1)描述进行判别分析应满足的基本条件。

(2)请写出费雪判别和贝叶斯判别的线性判别函数(请附上相关输出表格)。

(3)运用费雪判别准则进行原12个样品的回判,回判的效果如何?

请说明(请附上相关输出表格)。

(4)请说明待判样品的归类(请附上相关输出表格)。

答:

(1)判别分析是用来解决被解释变量是非度量变量的情形的。

判别分析的基本条件如下:

1)分组类型在两组以上;在第一阶段工作时每组案列的模型必须至少在一个以上;

2)每一个判别变量不能是其他判别变量的线性组合;

3)各组变量的协方差矩阵相等;

4)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。

(2)费雪判别的线性判别函数:

判别式函数系数

函数

1

峰值年龄

-1.001

一胎生育率

.234

二胎生育率

.127

总和生育率

2.379

(常量)

3.666

非标准化系数

Y=3.666-1.001*峰值年龄+0.234*一胎生育率+0.127*二胎生育率+2.379*总和生育率

贝叶斯判别的线性判别函数:

分类函数系数

组别1

1

2

峰值年龄

77.795

81.269

一胎生育率

5.847

5.036

二胎生育率

10.619

10.178

总和生育率

94.666

86.410

(常量)

-1394.641

-1407.364

Fisher的线性判别式函数

Y1这一组的分类函数是:

Y1=-1394.641+77.795*峰值年龄+5.847*一胎生育率+10.619*二胎生育率+94.666*总和生育率

Y2这一组的分类函数是:

Y2=-1407.364+81.269*峰值年龄+5.036*一胎生育率+10.178*二胎生育率+86.410*总和生育率

(3)运用费雪判别准则进行原12个样品的回判,回判的效果:

分类结果b,c

组别1

预测组成员

合计

1

2

初始

计数

1

6

0

6

2

0

6

6

未分组的案例

2

1

3

%

1

100.0

.0

100.0

2

.0

100.0

100.0

未分组的案例

66.7

33.3

100.0

交叉验证a

计数

1

6

0

6

2

1

5

6

%

1

100.0

.0

100.0

2

16.7

83.3

100.0

a.仅对分析中的案例进行交叉验证。

在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

b.已对初始分组案例中的100.0%个进行了正确分类。

c.已对交叉验证分组案例中的91.7%个进行了正确分类。

结论:

由上表可以看出,通过判别函数预测,全部12个观测是分类正确的,y=1和y=2两组分别有6个观测,全部被判对。

所以,由100%的原始观测被判对。

在交叉验证中,y=1组6个观测全部被判对,y=2组6个观测中有5个被判对,从而交叉验证有11/12=91.7%的原始观测被判对。

故不存在误判,即回判效果很好。

(4)

按照案例顺序的统计量

案例数目

最高组

第二最高组

判别式得分

P(D>d|G=g)

实际组

预测组

p

df

P(G=g|D=d)

到质心的平方Mahalanobis距离

P(G=g|D=d)

到质心的平方Mahalanobis距离

函数1

13

未分组的

1

.330

1

1.000

.950

2

.000

19.759

2.710

14

未分组的

2

.753

1

.999

.099

1

.001

14.328

-2.050

15

未分组的

1

.544

1

1.000

.368

2

.000

16.624

2.342

结论:

序号13和15被归为第一类,序号14被归为第二类。

3.某课题组欲对我国省会城市的发展状况进行综合

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 商业计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1