1、第四章 数据分析梅长林习题答案第四章 习题一、习题4.4解:(1)通过SAS的proc princomp 过程对相关系数矩阵R做主成分分析,得到个主成分的贡献率以及累计贡献率如表1所表 1Eigenvalues of the Correlation MatrixEigenvalueDifferenceProportionCumulative12.856710992.047547280.57130.571320.809163720.269488480.16180.733230.539675240.088175140.10790.841140.451500100.108550150.09030.9
2、31450.342949950.06861.0000从表中可以得到特征值向量为:第一主成分贡献率为:57.13 % 第二主成分贡献率为:16.18 %第三主成分贡献率为: 10.79% 第四主成分贡献率为:9.03 %第五主成分贡献率为:6.86 %进一步得到各主成分分析结果如表2所示:表 2EigenvectorsPrin1Prin2Prin3Prin4Prin5x10.463605-.240339-.6117050.386635-.451262x20.457108-.5093050.1781890.2064740.676223x30.470176-.2604480.335056-.6624
3、45-.400007x40.4214590.5256650.5407630.472006-.175599x50.4212240.581970-.435176-.3824390.385024(2)由(1)中得到的结果可知前两个主成分的累积贡献率为73.32%,得到第一主成分、第二主成分为:由于是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,越大表示各股票的综合周反弹率越大。中关于三种化工股票的周反弹率系数为负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,的绝对值越大,表明两种石油周反弹率和三种化工股票周反弹率的
4、差距越大。二、习题4.5解:(1)利用SAS的proc corr过程求得相关系数矩阵如表3:表 3Correlation Matrixx1x2x3x4x5x6x7x8x11.00000.3336-.0545-.0613-.28940.19880.34870.3187x20.33361.0000-.02290.3989-.15630.71110.41360.8350x3-.0545-.02291.00000.53330.49680.0328-.1391-.2584x4-.06130.39890.53331.00000.69840.4679-.17130.3128x5-.2894-.15630.4
5、9680.69841.00000.2801-.2083-.0812x60.19880.71110.03280.46790.28011.00000.41680.7016x70.34870.4136-.1391-.1713-.20830.41681.00000.3989x80.31870.8350-.25840.3128-.08120.70160.39891.0000(2)从相关系数矩阵出发,通过proc princomp过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:表 4Eigenvalues of the Correlation MatrixEigenvalueDiffer
6、enceProportionCumulative13.096288290.729065220.38700.387022.367223071.447235720.29590.682930.919987350.214061990.11500.797940.705925360.207483030.08820.886250.498442330.268554030.06230.948560.229888310.099112540.02870.977270.130775770.079306230.01630.993680.051469540.00641.0000第一主成分贡献率为:38.70 % 第二主成
7、分贡献率为:29.59 %第三主成分贡献率为: 11.50% 第四主成分贡献率为:8.82 %第五主成分贡献率为:6.23 % 第六主成分贡献率为:2.87 %其中前两个主成分的累计贡献率为68.29%(3)通过上面的计算得到各主成分,见表5:表 5EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6Prin7Prin8x10.249607-.2412380.693918-.3767700.502313-.018418-.0365430.045052x20.519234-.037607-.071261-.224871-.4244530.001760-.28246
8、70.642950x3-.0184800.4754390.5778190.032379-.510472-.1733440.381416-.050854x40.2540920.538081-.021777-.2310660.0103580.399113-.471680-.458432x50.0216950.575449-.0480870.2853680.5162700.1461090.1591920.520977x60.4926630.134676-.1453480.2242220.177156-.754966-.081452-.244442x70.317147-.2606820.2863910
9、.768116-.0907590.355165-.130720-.089297x80.509332-.087081-.271279-.1769900.0260150.3047200.708416-.180821由于是八个标准化标值的加权值,因此它反映了平均消费数据的综合指标。对于Y1,它反映了各省人均消费水平,除烟茶酒外,其他支出越高,其人均总体消费水平越高,而烟茶酒对其消费水平评价成反方向。在Y2中人均粮食,人均副食品,人均燃料,人均非商品的系数为负;人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正,说明Y2的绝对值越大,各省人均消费的在生活必需品与高档品差异越大。根据第一主成分的得分
10、对各个省份进行排序,见表6:表 6ObslocationPrin1ObslocationPrin11广东6.8959116宁夏-0.430402上海3.2484217湖南-0.518023北京1.7921418陕西-0.612744浙江1.5150719云南-0.666705海南1.4011620新疆-0.818506福建1.1539021青海-1.113357广西1.0565122安徽-1.114968天津0.4354323甘肃-1.182239江苏0.1532924内蒙古-1.2581910辽宁0.0452025贵州-1.2593411西藏-0.1332426吉林-1.2937012四川-
11、0.1348927黑龙江-1.3256713山东-0.1411228河南-1.4859514湖北-0.1704429山西-1.6844815河北-0.3922030江西-1.96091三、习题4.6解:(1)通过SAS的proc princomp过程计算得到样本协方差矩阵见表7:表 7Covariance Matrixx1x2x3y1y2y3x197.333333317.809523812.029761958.720238122.351190561.5297619x217.809523874.579932014.21853743.326105461.6215986-3.8558673x312.
12、029761914.218537476.969387841.667517031.218537466.1092687y158.72023813.326105441.6675170779.1539116310.1594388192.4234694y222.351190561.621598631.2185374310.1594388510.0799320156.1857993y361.5297619-3.855867366.1092687192.4234694156.1857993485.3324830求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8:表 8Eigenvalues
13、 of the Covariance MatrixEigenvalueDifferenceProportionCumulative11097.39817699.402130.54230.54232397.9960484.897030.19670.73903313.09901213.354190.15470.8938499.7448229.626820.04930.9431570.1180025.025040.03470.9777645.092950.02231.0000从以上结果可看出前三个主成分贡献率已占89.38%,大于剩下三个成分的总和,已包含原始数据的大量信息,所以保留前三个主成分即可
14、。(2)通过SAS的proc princomp过程对其相关系数矩阵进行主成分分析,首先得到相关系数矩阵见表9:表 9Correlation Matrixx1x2x3y1y2y3x11.00000.20900.13900.21320.10030.2831x20.20901.00000.18770.01380.3159-.0203x30.13900.18771.00000.17010.15760.3420y10.21320.01380.17011.00000.49200.3129y20.10030.31590.15760.49201.00000.3139y30.2831-.02030.34200.
15、31290.31391.0000求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10:表 10Eigenvalues of the Correlation MatrixEigenvalueDifferenceProportionCumulative12.121571661.037363700.35360.353621.084207960.086246200.18070.534330.997961760.126282980.16630.700640.871678770.292251460.14530.845950.579427310.234274770.09660.942560
16、.345152540.05751.0000从以结果可看出前四个主成分贡献率已占84.59%且第四个主成分的贡献率都占到总信息量的的14.53%,与剩下两个成分的总和差不多,所以保留前四个主成分即可。我认为基于协方差矩阵S的分析结果更合理。因为由协方差矩阵输出结果可以看出前三个主成分的贡献率就可达到89.38%大于相关系数矩阵R分析得到前四个主成分贡献率总和84.59%,且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据,所以基于协方差矩阵S的分析结果更为合理。四、习题4.8(1)通过proc cancorr过程求得以下结果:表 11CanonicalCorrelationAdjustedCa
17、nonicalCorrelationApproximateStandardErrorSquaredCanonicalCorrelationEigenvaluesofInv(E)*H=CanRsq/(1-CanRsq)EigenvalueDifferenceProportionCumulative10.3971120.3969100.0084230.1576980.18720.18190.97230.972320.072889.0.0099470.0053130.00530.02771.0000两个特征值分别为 计算得到各典型变量系数见表下表:Standardized Canonical Coe
18、fficients for the VAR Variables V1V2x11.24780.3180x2-1.03300.7687Standardized Canonical Coefficients for the WITH VariablesW1W2y11.1019-0.0071y2-0.45641.0030所以有第一对典型变量为: 第一对典型相关系数;第二对典型变量为:第二对典型相关系数(2)对典型变量进行显著性检验,结果见表12,其中P1=0.0010.05,P2=0.001F10.83782737462.33419992.000120.9946871253.4019997F10.377162886.604420.000320.997112040.061220.8031取显著水平为0.05,其中第一对典型变量的检验p值为0.003,小于0.05,所以第一对典型变量显著相关,而第二对典型变量的检验p值为0.8031,大于0.05,所以第二对典型变量不是显著相关。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1