数据分析梅长林习题答案.docx
《数据分析梅长林习题答案.docx》由会员分享,可在线阅读,更多相关《数据分析梅长林习题答案.docx(17页珍藏版)》请在冰豆网上搜索。
![数据分析梅长林习题答案.docx](https://file1.bdocx.com/fileroot1/2022-10/12/9f4ece5b-7ffa-464d-a101-47c8089a7755/9f4ece5b-7ffa-464d-a101-47c8089a77551.gif)
数据分析梅长林习题答案
第1章习题
、习题1.1解:
(1)利用题目中的数据,通过SAS系统procunivariate过程计算
得到:
x139.0S7.06387
S249.89831众数142.0
g10.51CV5.08192
g20.126129由得到的数据特征可知道,偏度为负,所以呈做偏态,
峰度为负,所以均值两侧的极端值较少.
(2)M139.0R31.0
Q135.0Q144.5
RiQQi9.5
1八11八
MQ1MQ139.375
424
⑶通过SAS系统proccapability得到直方图,并拟合正态分布曲线:
(4)通过SAS系统procunivariate可以画出茎叶图,从茎叶图可以看
出数据大致呈对称分布,由于所给数据都是整数,所以叶所代表的小位数都是0
正枣概率图
151+h+**
.林*
146+向++
K-Ht
烟中“
13时串时
1申I
(27+*
+++■
m*
I2i+ti>+++——+——+4++——+——+-—
-2।i〞除
⑸通过SAS系统procunivariate过程计算得到:
W0.971571
pPh°(WWo)=0.1741
取0.05,因p0.1742,故不能拒绝H.,认为样本来自正态
总体分布.
通过画QQ图和经验分布曲线和理论分布函数曲线,从图中可以看出QQ图近似的在一条直线上,经验分布曲线的拟合程度也相当好,所以可以进一步说明此样本来自正态总体分布.
NormalLine:
Mu=139,Sigma=7.0639
x
NormalCurve:
Mu=139,Sigma=7.0639
二、习题1.2
x7.8574027S1.62568785
S22.64286098
g10.13721437CV20.6898884
g2-1.4238025
由得到的数据特征可知道,偏度为正,所以呈右偏态,峰度为负,所
以均值两侧的极端值较少.
(2)
M7.636800R5.03650
Q6.5859Q9.3717
R1QQ2.78580
…1八1-1八
MQMQ7.809
4243
(3)通过SAS系统proccapability得到直方图,SAS系统自动将数据分为中值为4.5,5.5,6.5,7.5,8.5,9.5,10.5的7组,图中纵坐标代表了各个区间的频数占总数的百分比.
(4)通过SAS系统procunivariate可以画出茎叶图,从图中可以看出数据散乱分布,没有明显的对称等特征.
二、习题3.3
(1)
全国居民的消费的均值、标准差、变异系数、偏度、峰度:
X1117.000S1016
S21031680
911.02485CV90.933
g2-0.457
农村居民的消费均值、标准差、变异系数、偏度、峰度:
X747.864S632.1976
S2399673.838
911.01256CV84.54
g2-0.414
城市居民的消费均值、标准差、变异系数、偏度、峰度
x2336.41S2129.82
S24536136.44
910.97046CV91.158
g2-0.57316
(2)
全国居民消费的中位数、上下四分位数、四分位极差、三均值:
M727.500R2996
Q311.0Q1746.0
R1QQ1435
一111-C
M-Q1-M—Q878
424
农村居民消费的中位数、上下四分位数、四分位极差、三均值:
M530.5R1836
Q1246.0Q31118.0
R1QQ872
1_1_1_
MQ1MQ606
424
城市居民消费的中位数、上下四分位数、四分位极差、三均值
M1449.500R6246
Q1603Q33891.0
R1QQ3288
1_11_
M-Q1-M—Q1697.5
424
(3)
全国居民消费直方图
x1
农村居民消费直方图
城市居民消费直方图
(4)全国居民消费茎叶图:
由图中可以看出,在我国居民消费水平
参差不齐,其中低消费水平的居民占绝大多数,这说明我国经济水平还是比较落后的.
H-Z21I268
茎叶
3D?
268
23
1;
1H
0567883
022293944
茎・叶乘以1饼种3
农村居民消费茎叶图:
由图中可以看出,在我国农村居民消费水平普遍比较低,其中消费水平差异很大,有一局部的消费水平相对较高,而另一局部消费水平相对较低,因此农村开展要均衡,先富带动后富,最终共同加快农村开展
叶,
8079
71
31
?
1
61
222
21574
2025C5®6
值舵电9
茎.叶乘以10**+2
城市居民消费茎叶图:
由图中可以看出,在我国城市居民消费水平差距很大,虽然普遍高于农村,但是绝大多数人的消费水平是远远低于高消费人群.
茎叶a
6272
5眶2
431
3092
241
114G795
04456S67S93
(5)通过计算可以得到全国居民消费水平的山下截断点分别为
-1841.5和3898.5,所以全国居民消费水平无异常值.全国居民消费
水平的山下截断点分别为-1062和2488,所以全国农村居民消费水平无异常值.全国居民消费水平的山下截断点分别为-4329和8823,所以全国城市居民消费水平无异常值
四、习题1.4
(1)
11月预收入的均值、标准差、变异系数、偏度、峰度:
x19.166S19.780
2-
S392.031
g12.51535CV103.304
g28.267
1-11月预收入的均值、标准差、变异系数、偏度、峰度:
x246.139S232.972
2
S254275.998
g11.916CV94.630
g2-4.385
(2)11月预收入的中位数、上下四分位数、四分位极差、三均值:
M14.77R98.55
Q6.24Q120.32
R1QQ14.10
1-1.1--
MQ1MQ39.025
41243
1-11月预收入的中位数、上下四分位数、四分位极差、三均值:
M179.41R1074
Q103.81Q273.29
R1QQ169.48
…1八1-1八
M-Q1-M_Q183,98
41243
(3)
11月预收入x1的的直方图:
x1
1-11月预收入x2的直方图:
x2
⑷
11月预收入x1的经验分布函数曲线:
通过画QQ图和经验分布曲线和理论分布函数曲线,从图中可以看出
QQ图近似的在直线右下方,所以偏度<0,经验分布曲线的拟合程度也不好,所以不能说明此样本来自正态总体分布
x1
NormalCurve:
Mu=19.166,Sigma=19.8
-3-2-10123
正态分位数
1-11月预收入x2的经验分布函数曲线:
通过画QQ图和经验分布曲线和理论分布函数曲线,从图中可以看出
QQ图近似的在直线右下方,所以偏度<0,经验分布曲线的拟合程度也不好,所以不能说明此样本来自正态总体分布
1200
1000
800
x2600
400
2000
(5)利用proccorr过程计算数据的Pearson相关系数:
Pearson相大系圻,N=31
当HO:
Rho=0时.Prob>|r|
xl起
xl1.000000.S7C25
<.0001
由0.97625LOQOOO
<.aooi
rx1x20.97625
XX
检验p值小于0.0001,故X1,X2的相关性是显著的.
利用proccorr过程计算数据的Spearman相关系数:
Spearman彳瞌薄,FJ=31
当H0:
品口小时,
Prob>Ir|
xl
姆
xiikoooao
1.3276?
<.oaoi
0,92792
looooo
<.0001
rx1x20.92782
x1x2
检验p值小于0.0001,故X1,X2的相关性是显著的.
五、习题1.5
(1)总体均值的估计
(18.2190527.866674.5047633.76667)
(2)总体协方差矩阵的估计(只写出了上三角的局部):
3.50862.70721.10941.2657
3.55931.13871.2893
S
1.99851.7397
4.0323
六、习题1.6
(1)由proccorr过程求得的中位数向量M:
M(18.100027.400004.8000034.10000)
(2)由proccorr得到的Pearson相关系数矩阵R:
当
Pearson,瞌系数.N
HO:
RhylProb
=21
>Irl
xl
苴
姆
x4-
xl
1.00000
O.7BB08
<.0001
0.9B4B7
0-0848
0J3B49
0.1358
x2
0.7BB0&
<0001
1.00000
0.42634
0.0696
0.81038
0.1312
温
0.38437
0.0840
0.42684k党耗
1.00000
0,61233
0.0031
x4
0.99C49
0.1358
0.94033
J.1312
0..812S9
0.0031
1JOOOO
(3)由proccorr得到的Spearman相关系数矩阵Q:
Speamar相关系数,N=21
当削:
Rho=0时,Prob>Irl
xl
墟
蜷x4
Ml
1LOCOOO
0.70370
0,43399
0.43054
叩U1
0.0493
0.0514
心
X7^970
LOOOOO
0,51111
0,48841
<.COO1
0.0179
0.0247
婷
D.433S9
0.51111
l.OOOflO
0.C911S
54找
0.0179
0.0005
袋4
0.43054
0.48841
0.69119
1.00000
0.0514
0U247
[1,0005
⑷由Pearson相关矩阵的输出结果看,显著性水平取0.1,那么「12,「13,「23,「24,「34的P值皆小于0.1,故认为各相应随机变量的显著相关.
由Spearman相关矩阵的输出结果看,显著性水平取0.1,那么
q12,q13,q14,q23,q24,q34的p值皆小于0.1,故认为各相应随机变量的
显著相关.
七、习题1.7
(1)数据均值向量:
x(14.4116.024.23)
数据的中位数向量:
M(15.0015.004.00)
(2)由procco「「求得的Pearson相关系数矩阵:
PearsonfW二50
当HD:
Rha=0时,Prob>Irl
乂1
xl
1.00000
0^1930
<.0001
0.G1SEZ
a.oooi
x2
0.61990
COOOI