第四章数据分析梅长林习题答案Word文档下载推荐.docx

资源描述

第四章数据分析梅长林习题答案Word文档下载推荐.docx

《第四章数据分析梅长林习题答案Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《第四章数据分析梅长林习题答案Word文档下载推荐.docx（13页珍藏版）》请在冰豆网上搜索。

第四章数据分析梅长林习题答案Word文档下载推荐.docx

0.386635

-.451262

0.457108

-.509305

0.178189

0.206474

0.676223

0.470176

-.260448

0.335056

-.662445

-.400007

0.421459

0.525665

0.540763

0.472006

-.175599

0.421224

0.581970

-.435176

-.382439

0.385024

（2）由

（1）中得到的结果可知前两个主成分的累积贡献率为73.32%，得到第一主成分、第二主成分为：

由于

是五个标准化指标的加权和，由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果，

越大表示各股票的综合周反弹率越大。

中关于三种化工股票的周反弹率系数为负，而关于两种石油的系数为正，它放映了两种石油周反弹率和三种化工股票周反弹率的对比，

的绝对值越大，表明两种石油周反弹率和三种化工股票周反弹率的差距越大。

二、习题4.5

（1）利用SAS的proccorr过程求得相关系数矩阵如表3：

表3

CorrelationMatrix

0.3336

-.0545

-.0613

-.2894

0.1988

0.3487

0.3187

-.0229

0.3989

-.1563

0.7111

0.4136

0.8350

0.5333

0.4968

0.0328

-.1391

-.2584

0.6984

0.4679

-.1713

0.3128

0.2801

-.2083

-.0812

0.4168

0.7016

（2）从相关系数矩阵出发，通过procprincomp过程对其进行主成分分析，表4给出了各主成分的贡献率以及累积贡献率：

表4

3.09628829

0.72906522

0.3870

2.36722307

1.44723572

0.2959

0.6829

0.91998735

0.21406199

0.1150

0.7979

0.70592536

0.20748303

0.0882

0.8862

0.49844233

0.26855403

0.0623

0.9485

0.22988831

0.09911254

0.0287

0.9772

0.13077577

0.07930623

0.0163

0.9936

0.05146954

0.0064

38.70%第二主成分贡献率为：

29.59%

11.50%第四主成分贡献率为：

8.82%

6.23%第六主成分贡献率为：

2.87%

其中前两个主成分的累计贡献率为68.29%

（3）通过上面的计算得到各主成分，见表5：

表5

Prin6

Prin7

Prin8

0.249607

-.241238

0.693918

-.376770

0.502313

-.018418

-.036543

0.045052

0.519234

-.037607

-.071261

-.224871

-.424453

0.001760

-.282467

0.642950

-.018480

0.475439

0.577819

0.032379

-.510472

-.173344

0.381416

-.050854

0.254092

0.538081

-.021777

-.231066

0.010358

0.399113

-.471680

-.458432

0.021695

0.575449

-.048087

0.285368

0.516270

0.146109

0.159192

0.520977

0.492663

0.134676

-.145348

0.224222

0.177156

-.754966

-.081452

-.244442

0.317147

-.260682

0.286391

0.768116

-.090759

0.355165

-.130720

-.089297

0.509332

-.087081

-.271279

-.176990

0.026015

0.304720

0.708416

-.180821

由于是

八个标准化标值的加权值，因此它反映了平均消费数据的综合指标。

对于Y1，它反映了各省人均消费水平，除烟茶酒外，其他支出越高，其人均总体消费水平越高，而烟茶酒对其消费水平评价成反方向。

在Y2中人均粮食，人均副食品，人均燃料，人均非商品的系数为负；

人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正，说明Y2的绝对值越大，各省人均消费的在生活必需品与高档品差异越大。

根据第一主成分的得分对各个省份进行排序，见表6：

表6

Obs

location

广东

6.89591

宁夏

-0.43040

上海

3.24842

湖南

-0.51802

北京

1.79214

陕西

-0.61274

浙江

1.51507

云南

-0.66670

海南

1.40116

新疆

-0.81850

福建

1.15390

青海

-1.11335

广西

1.05651

安徽

-1.11496

天津

0.43543

甘肃

-1.18223

江苏

0.15329

内蒙古

-1.25819

辽宁

0.04520

贵州

-1.25934

西藏

-0.13324

吉林

-1.29370

四川

-0.13489

黑龙江

-1.32567

山东

-0.14112

河南

-1.48595

湖北

-0.17044

山西

-1.68448

河北

-0.39220

江西

-1.96091

三、习题4.6

（1）通过SAS的procprincomp过程计算得到样本协方差矩阵见表7：

表7

CovarianceMatrix

97.3333333

17.8095238

12.0297619

58.7202381

22.3511905

61.5297619

74.5799320

14.2185374

3.3261054

61.6215986

-3.8558673

76.9693878

41.6675170

31.2185374

66.1092687

779.1539116

310.1594388

192.4234694

510.0799320

156.1857993

485.3324830

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8：

表8

EigenvaluesoftheCovarianceMatrix

1097.39817

699.40213

0.5423

397.99604

84.89703

0.1967

0.7390

313.09901

213.35419

0.1547

0.8938

99.74482

29.62682

0.0493

0.9431

70.11800

25.02504

0.0347

0.9777

45.09295

0.0223

从以上结果可看出前三个主成分贡献率已占89.38%，大于剩下三个成分的总和，已包含原始数据的大量信息，所以保留前三个主成分即可。

（2）通过SAS的procprincomp过程对其相关系数矩阵进行主成分分析，首先得到相关系数矩阵见表9：

表9

0.2090

0.1390

0.2132

0.1003

0.2831

0.1877

0.0138

0.3159

-.0203

0.1701

0.1576

0.3420

0.4920

0.3129

0.3139

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10：

表10

2.12157166

1.03736370

0.3536

1.08420796

0.08624620

0.1807

0.5343

0.99796176

0.12628298

0.1663

0.7006

0.87167877

0.29225146

0.1453

0.8459

0.57942731

0.23427477

0.0966

0.9425

0.34515254

0.0575

从以结果可看出前四个主成分贡献率已占84.59%且第四个主成分的贡献率都占到总信息量的的14.53%，与剩下两个成分的总和差不多，所以保留前四个主成分即可。

我认为基于协方差矩阵S的分析结果更合理。

因为由协方差矩阵

输出结果可以看出前三个主成分的贡献率就可达到89.38%大于相关系数矩阵R分析得到前四个主成分贡献率总和84.59%，且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据，所以基于协方差矩阵S的分析结果更为合理。

四、习题4.8

（1）通过proccancorr过程求得以下结果：

表11

Canonical

Correlation

Adjusted

Approximate

Standard

Error

Squared

Eigenvalues

Inv（E）*H

CanRsq/（1-CanRsq）

0.397112

0.396910

0.008423

0.157698

0.1872

0.1819

0.9723

0.072889

0.009947

0.005313

0.0053

0.0277

两个特征值分别为

计算得到各典型变量系数见表下表：

StandardizedCanonicalCoefficientsfortheVARVariables

1.2478

0.3180

-1.0330

0.7687

StandardizedCanonicalCoefficientsfortheWITHVariables

1.1019

-0.0071

-0.4564

1.0030

所以有

第一对典型变量为：

第一对典型相关系数

；

第二对典型变量为：

第二对典型相关系数

（2）对典型变量进行显著性检验，结果见表12，其中P1=0.001<

0.05，P2=0.001<

0.05，故两对变量都显著相关。

表12

Test

H0:

The

canonical

correlations

the

current

row

and

all

that

are

zero

Likelihood

Ratio

Value

Num

Den

0.83782737

462.33

19992

.0001

0.99468712

53.40

9997

五、习题4.9

（1）首先计算得到协方差系数矩阵：

协方差矩阵，自由度=24

95.2933333

52.8683333

69.6616667

46.1116667

54.3600000

51.3116667

35.0533333

100.8066667

56.5400000

45.0233333

进而从协方差系数矩阵计算得到典型变量系数：

RawCanonicalCoefficientsfortheVARVariables

0.0565661954

-0.139971093

0.0707368313

0.1869496027

RawCanonicalCoefficientsfortheWITHVariables

0.0502425983

-0.176147939

0.0802223988

0.2620835635

（2）计算得到样本相关系数矩阵：

从相关系数矩阵出发，进行典型相关变量分析：

0.5522

-1.3664

0.5215

1.3784

0.5044

-1.7686

0.5383

1.7586

第一对典型相关系数为：

第二对典型相关系数为：

因为样本中测量的数据的量纲都是相同的，所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析，得到的结果是一样的。

对典型变量进行显著性检验，结果见表13：

表13

0.37716288

6.60

0.0003

0.99711204

0.06

0.8031

取显著水平为0.05,其中第一对典型变量的检验p值为0.003，小于0.05，所以第一对典型变量显著相关，而第二对典型变量的检验p值为0.8031，大于0.05，所以第二对典型变量不是显著相关。

展开阅读全文

第四章 数据分析梅长林习题答案Word文档下载推荐.docx

第四章数据分析梅长林习题答案Word文档下载推荐.docx