多元统计分析.docx

上传人:b****6 文档编号:8647259 上传时间:2023-02-01 格式:DOCX 页数:16 大小:114.92KB
下载 相关 举报
多元统计分析.docx_第1页
第1页 / 共16页
多元统计分析.docx_第2页
第2页 / 共16页
多元统计分析.docx_第3页
第3页 / 共16页
多元统计分析.docx_第4页
第4页 / 共16页
多元统计分析.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

多元统计分析.docx

《多元统计分析.docx》由会员分享,可在线阅读,更多相关《多元统计分析.docx(16页珍藏版)》请在冰豆网上搜索。

多元统计分析.docx

多元统计分析

多元统计分析

一、数据文件industry.sav提供了五家大型跨国公司从1990年1月至1999年12月间的股票月度对数收益率,分别是V1(国际商业机器公司IBM)、V2(惠普HP)、V3(英特尔公司Intel)、V4(美林资产管理集团MerrillLynch)和V5(摩根士丹利MorganStanley)。

请进行主成分分析,并解释其经济意义。

(本题20分)

要求至少包含如下方面:

1.判断该数据集是否适于进行主成分/因子分析

2.画出碎石图

3.写出第一个主成分的完整表达式

4.选取适当个数的主成分并解释其经济意义

5.给出每个样品在第一、第二主成分上的得分,每个主成分得分的方差是多少?

背景资料:

●IBM是世界上最大的信息产业跨国公司,在大型/小型机和便携机(ThinkPad)方面的成就最为瞩目。

其创立的个人计算机(PC)标准,至今仍被不断的沿用和发展。

●惠普公司(Hewlett-Packard,简称HP)位于美国加州的帕罗奥多,是一家全球性的信息产业公司,主要专注于打印机、数位影像、软件、计算机与资讯服务等业务。

●英特尔公司(IntelCorporation)是全球最大的半导体芯片制造商。

●美林资产管理集团(MerrillLynch),是一家全球化、综合性的金融服务公司,其业务涵盖了投资银行的所有方面,包括债券及股票的承销、二级市场经纪及自营业务、资产管理、投融资咨询及财务顾问,以及宏观经济、行业、公司的调研。

●摩根士丹利(MorganStanley)是一家成立于美国纽约的大型国际金融服务公司,提供包括证券、资产管理、企业合并重组和信用卡等多种金融服务。

二、使用上述数据文件industry.sav,进行因子分析,并解释其经济意义。

(本题20分)

要求至少包含如下方面:

1.分别给出旋转前、旋转后的因子载荷矩阵,并简要解释这两个矩阵的统计意义;

2.给出因子得分系数矩阵,并简要解释该矩阵的功能;

3.计算因子得分;

4.写出第一个因子的完整表达式;

5.选取适当个数的因子并解释其经济意义。

解答过程:

1.分别给出旋转前、旋转后的因子载荷矩阵,并简要解释这两个矩阵的统计意义;

旋转前的因子载荷矩阵

成份矩阵a

成份

1

2

IBM

.536

.561

HP

.744

.335

Intel

.607

.433

Merrill

.788

-.515

MoganStanley

.791

-.514

提取方法:

主成分分析法。

a.已提取了2个成份。

旋转前的因子载荷矩阵统计意义为:

原始变量可以写成两个因子的线性组合,如V1=0.536*F1+0.561*F2。

是通过主成分抽取法,抽取出的各变量在两个因子上的各自载荷是多少。

 

旋转后的因子载荷矩阵

旋转成份矩阵a

成份

1

2

IBM

.011

.776

HP

.317

.752

Intel

.151

.730

Merrill

.928

.158

MoganStanley

.930

.161

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

a.旋转在3次迭代后收敛。

旋转后的因子载荷矩阵,是将由主成分法得到的因子载荷矩阵,通过空间旋转,使得两个因子各自的解释意义更强。

同样矩阵含义为用因子表示原始变量时的系数,如:

V1=0.011*F1+0.776*F2

 

2.给出因子得分系数矩阵,并简要解释该矩阵的功能;

成份得分系数矩阵

成份

1

2

IBM

-.173

.508

HP

.023

.421

Intel

-.076

.445

Merrill

.541

-.112

MoganStanley

.542

-.110

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

因子得分系数矩阵可以直观的观察出不相关的各因子与不同原始变量间的相关程度。

在本题中,F1在Merrill和MoganStanley上得分更大,说明F1主要反应“金融股的收益率”,F2在IBM,HP,Intel上得分更大,说明F2主要反映“信息产业股票收益率”

其中因子可以表示成原始变量的线性组合:

F1=-0.173V1+0.023*V2-0.076*V3+0.541*V4+0.542*V5

F2=0.508*V1+0.421*V2+0.445*V3-0.112*V4-0.110*V5

3.计算因子得分;

由SPSS得到的各因子得分如下:

FAC1_1

FAC2_1

-1.56955

0.60023

-0.19527

0.03725

-0.3881

0.31584

-0.26134

-0.50647

0.77816

1.32378

-0.26775

-0.48756

-0.67983

-1.0397

-0.99233

-2.56144

-1.46655

0.08296

-0.55811

-1.25278

0.57612

1.12249

0.30422

-0.00637

0.89275

1.68872

1.47871

0.48056

1.96775

-1.15108

0.34903

-0.61019

0.51428

0.58302

-0.81264

-1.60832

0.9095

0.04034

0.07533

-0.33701

0.8145

-0.98473

0.71645

-0.81214

-0.56998

-0.5843

1.82181

0.56087

-1.12461

0.97457

-0.29795

0.765

-0.14716

-0.61626

-1.55899

0.33787

0.04767

-0.70941

-0.3782

0.33665

0.43369

-0.09268

-0.64468

-1.73683

-0.31797

-0.20041

0.80235

-1.29743

0.579

0.68946

0.47645

-1.05199

0.19633

0.74765

-0.02993

0.52662

0.73356

-0.71268

-0.37397

-1.28882

0.43931

1.19602

0.55002

-0.90427

0.50223

-1.65879

1.04088

0.63764

0.19661

-0.73291

-0.84699

0.25048

-1.30297

0.77342

-0.76179

0.4664

0.75071

0.08698

-1.50032

0.14687

-0.93497

-0.38704

-0.48256

-0.40513

-0.21921

0.29019

-0.84083

-0.92556

0.26498

0.13125

0.87154

1.14857

-1.62709

-0.23484

0.65557

0.4713

-0.79042

-0.33131

-0.60867

0.19959

0.04228

-0.03718

0.825

0.92147

-0.193

0.68808

-0.07612

1.66205

0.43813

-0.09379

0.64875

0.75844

-0.04659

0.71172

0.36955

-0.75368

1.00629

-0.88016

-1.50526

1.21988

-0.13494

-1.29382

-0.82427

-0.66055

0.95571

0.41024

-0.46719

1.47209

0.82467

-1.40314

-0.42119

0.82197

0.05566

0.129

-0.04688

-1.07344

-0.80133

-0.09087

-0.40353

0.37549

0.12515

1.33878

0.01755

0.05836

0.96105

2.11042

-0.31385

-0.65645

-0.22394

1.00968

1.31396

-1.29655

-1.05731

-0.60405

0.35615

0.82311

0.6025

-0.10655

0.64102

-0.08945

1.2581

2.30558

-1.28687

-0.77179

1.32918

0.21831

-0.92697

-1.73654

0.32083

0.24165

0.6134

-0.97143

-0.98748

0.01934

1.22801

0.64465

0.90444

-1.28469

0.32199

1.11722

-0.13619

-1.46324

0.79672

-0.58366

-0.52229

0.81899

-3.92909

-1.61075

-3.87985

2.361

2.8244

0.63337

1.09661

0.99657

-0.98094

1.29196

1.44129

0.65506

0.33686

-2.10972

0.9906

-0.19147

-0.80826

1.54328

-0.4172

0.62726

-0.44087

1.06043

-1.70878

0.67729

-0.04586

0.41089

-0.4465

-1.37671

2.06646

-2.53667

0.3783

0.89733

0.75319

0.86128

4.写出第一个因子的完整表达式;

由第2问中的“成分得分系数矩阵”可得第一个因子表达式:

F1=-0.173V1+0.023*V2-0.076*V3+0.541*V4+0.542*V5

5.选取适当个数的因子并解释其经济意义。

成份得分系数矩阵

成份

1

2

IBM

-.173

.508

HP

.023

.421

Intel

-.076

.445

Merrill

.541

-.112

MoganStanley

.542

-.110

提取方法:

主成分分析法。

旋转法:

具有Kaiser标准化的正交旋转法。

构成得分。

F1在Merrill和MoganStanley上得分更大,且两者均是金融股,说明F1主要反应“金融股的收益率”,F2在IBM,HP,Intel上得分更大,且三者都是信息产业股,说明F2主要反映“信息产业股票收益率”

 

三、三个美国制造商生产的早餐方便粥的数据见“soup.sav”。

这三家厂商分别是:

通用牛奶(I)、克罗格(II)和夸克(III)。

将早餐方便粥的品牌按厂商分组,每个品牌测试的指标有:

卡路里(x1)、蛋白质(x2)、脂肪(x3)、钠(x4)、纤维(x5)、碳水化合物(x6)、糖(x7)和钾(x8)。

要求:

(1)给出未标准化的费希尔判别式;

(2)给出三个厂商的组重心值;(3)将所有品牌的两个费希尔判别式得分画成散点图,用不同的符号表示不同的厂商。

(本题20分)

解答过程:

(1)给出未标准化的费希尔判别式;

未标准化的系数矩阵如下:

典型判别式函数系数

函数

1

2

卡路里

.022

-.045

蛋白质

.369

.332

脂肪

-.838

.386

.000

.006

纤维

1.420

-1.040

碳水化合物

.202

.204

.195

.235

-.031

.027

(常量)

-6.576

-2.572

非标准化系数

费希尔判别式为:

F1=-6.576+0.002*X1+0.369*X2-0.838*X3+0*X4+1.420*X5+0.202*X6+0.195*X7-0.031*X8

F2=-2.572-0.045*X1+0.332*X2+0.386*X3+0.006*X4-1.040*X5+0.204*X6+0.235*X7+0.027*X8

(2)给出三个厂商的组重心值;

组质心处的函数

g

函数

1

2

1

-.662

.720

2

1.194

-.267

3

-2.102

-1.150

在组均值处评估的非标准化典型判别式函数

厂商1组质心(-0.662,0.720)

厂商2组质心(1.194,-0.267)

厂商3组质心(-2.102,-1.150)

(3)将所有品牌的两个费希尔判别式得分画成散点图,用不同的符号表示不同的厂商。

三厂商费希尔判别式得分散点图

四、16种饮料品牌的热量(卡路里)、咖啡因、钠含量和价格变量数据见“DRINK.sav”。

假定这16种饮料品牌需分成三类,请利用上述四个变量进行K均值聚类。

要求:

(1)请给出“初始类中心值”和“最终类中心值”;

(2)请给出每种饮料品牌的类别归属;(3)请在结果中输出四个变量的方差分析表,指出哪些(个)变量是在聚类分析中的效能较好。

(本题20分)

解答过程:

(1)请给出“初始类中心值”和“最终类中心值”;

初始聚类中心

聚类

1

2

3

卡路里

207.20

.00

107.00

咖啡因

3.30

4.20

.00

15.50

13.10

8.30

价格

2.80

2.20

4.20

初始类中心为:

第一类(202.20,3.30,15.50,2.80)

第二类(0.00,4.20,13.10,2.20)

第三类(107.00,0.00,8.30,4.20)

 

最终聚类中心

聚类

1

2

3

卡路里

203.10

33.71

107.34

咖啡因

1.65

4.16

3.49

13.05

10.06

8.76

价格

3.15

2.69

2.94

最终类中心为:

第一类(203.10,1.65,13.05,3.15)

第二类(33.71,4.16,10.06,2.69)

第三类(107.34,3.49,8.76,2.94)

(2)请给出每种饮料品牌的类别归属;

聚类结果如下:

聚类成员

案例号

品牌名称

聚类

距离

1

可口可乐

1

5.065

2

芬达

2

4.585

3

醒目

3

35.358

4

露露

2

4.995

5

统一

3

14.388

6

红牛

3

18.311

7

娃哈哈

3

39.393

8

百事可乐

2

24.233

9

乐百氏

3

12.077

10

王老吉

1

5.065

11

高乐高

2

16.990

12

农夫

2

17.570

13

汇源

2

5.398

14

三得利

2

33.855

15

脉动

3

11.684

16

雀巢

3

3.749

 

(3)请在结果中输出四个变量的方差分析表,指出哪些(个)变量是在聚类分析中的效能较好。

方差分析表

ANOVA

聚类

误差

F

Sig.

均方

df

均方

df

卡路里

24865.327

2

455.311

13

54.612

.000

咖啡因

4.915

2

6.410

13

.767

.484

14.569

2

6.312

13

2.308

.139

价格

.214

2

1.038

13

.207

.816

F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

由方差分析表可知:

只有“卡路里”的P值小于0.05,通过显著性检验,即拒绝“各组方差相等”的原假设。

因此“卡路里”在分析中效能较好。

 

五、使用第四题数据“DRINK.sav”,利用上述四个变量对这16种饮料品牌进行系统聚类。

要求:

(1)分别给出分成2、3、4、5类时的分类方案;

(2)给出树形图或冰柱图(两图选一即可),并作简要解释;(3)说出你进行系统聚类时,分别使用的是哪种“样品间距离测度方法”和“类间距离测度方法”。

(本题20分)

解答过程:

(1)分别给出分成2、3、4、5类时的分类方案;

用SPSS进行聚类给出分类结果如下:

两类时:

(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、农夫、汇源、三得利、醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢)

三类时:

(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、农夫、汇源、三得利)、(醒目、红牛、乐百氏、统一、哇哈哈、脉动、雀巢)

四类时:

(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、汇源、农夫、三得利)、(醒目、红牛、乐百氏)、(统一、哇哈哈、脉动、雀巢)

五类时:

(可口可乐、王老吉)、(芬达、露露、百事可乐、高乐高、汇源)、(醒目、红牛、乐百氏)、(统一、哇哈哈、脉动、雀巢)、(农夫、三得利)

(2)给出树形图或冰柱图(两图选一即可),并作简要解释;

冰柱图如下:

冰柱相当于档板:

分成两类时,最高的挡板两侧分成两类,即(王老吉、可口可乐)为一类,挡板左边为一类。

其他数量的分类以此类推,以挡板为界分成给定类数。

(3)说出你进行系统聚类时,分别使用的是哪种“样品间距离测度方法”和“类间距离测度方法”。

答:

样品间距离测度方法:

平方欧几里得距离;类间距离测度方法:

组间连接法

提示:

如果不能从SPSS结果中直接拷贝图形或表格,可以使用“Ctrl”+“PrintScreenSysRq”组合键,将显示结果拷贝成图片粘帖至Word试卷中。

 

简答题(任选1道回答):

六、试述费希尔(Fisher)判别分析法的基本原理。

(本题20分)

 

七、简述主成分分析与因子分析的区别。

(本题20分)

答:

1.原理不同。

因子分析是把各变量看做一些公共因子(对每一个变量都有作用的因子)和特殊因子(仅对某一个变量有作用的因子)线性组合而成,目的是要从数据中探查出对变量起解释作用的公共因子及其组合系数;主成分分析是对原始变量进行空间旋转得到能反映变量大部分信息的新变量。

2.表达形式不同。

因子分析是把变量表示成几个公因子的线性组合;而主成分分析则是把主成分表示成各变量的线性组合。

3.假设不同。

主成分分析无须假设。

因子假设各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。

4.方法不同。

因子分析抽取公共因子方法很多,包括:

主成分法,极大似然法,主轴因子法等,方法不同得到的结果也不同;主成分只能用主成分法抽取。

5.唯一性不同。

若数据集的协方差矩阵或者相关矩阵的特征值唯一,主成分一般是固定的;而因子分析可以旋转得到不同的多个因子。

6.数量确定机制不同。

因子分析中,因子个数需要事先指定,指定的因子数量不同结果也可能不同;在主成分分析中,成分的数量一般和变量个数相等。

7.功能不同。

因子分析可以使用旋转技术增强因子表达的含义,在解释方面更加有优势;因子分析能把现有的变量变成少数几个新的综合性的变量,使得分析简化。

不过,因子分析也可以实现该目的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1