《 数据分析》课程期末考试试题A卷.docx
《《 数据分析》课程期末考试试题A卷.docx》由会员分享,可在线阅读,更多相关《《 数据分析》课程期末考试试题A卷.docx(18页珍藏版)》请在冰豆网上搜索。
《数据分析》课程期末考试试题A卷
命题方式:
单独命题
佛山科学技术学院2008—2009学年第一学期
《数据分析》课程期末考试试题A卷
专业、班级:
姓名:
学号:
题号
一
二
三
四
五
六
七
八
九
十
十一
十二
总成绩
得分
说明:
1.请仔细阅读题目,按要求在SAS软件系统编程运算;
2.将SAS程序及运算的有关结果作为解答copy到试卷的后面.
一、(12分)有关SAS的简答题:
1、SAS所采用的Windows操作系统中,SAS界面有哪三个部分?
日志框,编辑框,输出窗口
2、怎样输入非数值变量?
在非数值变量后面加“$”
3、与固定格式不同的自由格式输入数据应加上何种标记?
加上”@@”
4、写出三均值的计算公式。
二、(15分)北京市GDP同比增长1978~1995年的数据如下:
100.00107.57112.4296.21121.58107.21117.16116.19101.37109.78112.83104.37105.40109.50111.60112.10113.50112.40
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数,上、下四分位数,四分位极差;
(3)做出直方图、QQ图、茎叶图、箱线图;
(4)进行正态性
检验(取
).
共3页第1页
三、(15分)已知数据如下:
x1x2x3x4
16.726.76.435.0
18.228.03.229.7
16.726.72.134.9
18.126.74.331.5
16.726.03.032.7
18.130.27.034.9
20.230.54.834.4
20.229.55.536.2
21.531.55.836.5
18.830.65.435.4
21.627.85.434.1
21.329.55.835.8
(1)计算协方差矩阵,Pearson相关矩阵;
(2)分析各指标间的相关性(取
).
四、(15分)已知某工厂产量y及工人数x1、成本x2的有关数据如下:
序号yx1x2
11692653782
281983008
31923302450
41161952137
555532560
61622742450
71201803254
82233753802
91312052838
1067862347
(1)求回归方程,给出各参数的实际解释;
(2)求出方差分析、参数估计的结果;
五、(13分)已知数据如下:
x1x2x3x4x5x6x7
12.516.416.722.829.33.01726.6
7.89.910.212.617.60.84110.6
13.410.99.910.913.91.77217.8
19.119.819.029.739.62.44935.8
8.09.88.911.916.20.78913.7
9.74.24.24.66.50.8743.9
0.60.70.70.81.10.0561.0
13.99.49.39.813.32.12617.1
9.111.39.512.216.41.32711.6
对以上样本进行主成分分析,并求出相应的主成分.
共3页第2页
六、(15分)已知数据如下:
序号类别x1x2x3x4x5x6x7
36.057.137.7516.6711.682.3812.88
37.697.018.9416.1511.080.8311.67
38.696.018.8214.7911.441.7413.23
37.759.618.4913.159.761.2811.28
35.718.048.3115.137.761.4113.25
39.778.4912.9419.2711.052.0413.29
40.917.328.9417.6012.751.1414.80
33.707.5910.9818.8214.731.7810.10
35.024.726.2810.037.151.9310.39
52.417.709.9812.5311.702.3114.69
52.653.849.1613.0315.261.9814.57
55.855.507.459.559.522.2116.30
44.687.3214.5117.1312.081.2611.57
45.797.6610.3616.5612.862.7511.69
50.3711.3513.3019.2514.592.7514.87
64.348.0022.2220.0615.120.7222.89
(1)求出三个协方差矩阵;
(2)用距离判别求出线性判别函数,用交叉确认法计算误判率;
(3)判别待判样品属于哪一类.
七、(15分)利用上一题的数据(共16个)进行聚类分析:
(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);
(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;
(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.
共3页第3页
一
(1)SAS界面包括
输出框,日志框,编辑器
(2)在非数值变量后面家上”$”符号.
(3)自由格式输入数据应加上”@@”标记.
(4)三均值的计算公式
=1/4Q1+1/2M+1/4Q3
二
程序:
datat1;
inputx@@;
cards;
100.00107.57112.4296.21121.58107.21117.16116.19101.37
109.78112.83104.37105.40109.50111.60112.10113.50112.40
procunivariateplotnormal;
run;
proccapabilitygraphicsnormal;
histogramx/normal;
qqplotx/normal(….);
run;
(1)由上图可知道
均值:
109.510556方差:
40.5703938
变异系数:
5.81632451峰度:
0.05978054
偏度:
-0.3324812
(2)
中位数:
上四分位数:
下四分位数:
四分位极差:
(3)做出直方图、QQ图、茎叶图、箱线图
直方图:
QQ图
茎叶图:
箱线图:
(4)进行正态性
检验(取
).
由上图可以知道Wo=0.978265,P=0.9304>
;
故不能拒绝原假设Ho,所以是高度显著的。
三
datat2;
inputx1-x4;
cards;
16.726.76.435.0
18.228.03.229.7
16.726.72.134.9
18.126.74.331.5
16.726.03.032.7
18.130.27.034.9
20.230.54.834.4
20.229.55.536.2
21.531.55.836.5
18.830.65.435.4
21.627.85.434.1
21.329.55.835.8
proccorrcovpearson;
run;
(1)计算协方差矩阵,Pearson相关矩阵;
协方差矩阵:
Pearson相关矩阵:
(2)分析各指标间的相关性(取
)
由Pearson相关矩阵的上三角矩阵看出r13,r14都大于
故这些向量的相关性不是很强。
四:
datat4;
inputnum$yx1x2;
cards;
11692653782
281983008
31923302450
41161952137
555532560
61622742450
71201803254
82233753802
91312052838
1067862347
;
procregdata=t4;
modely=x1-x2/i;
run;
(1)求回归方程,给出各参数的实际解释
由上图可以知道
=4.14260,
=0.49482,
=0.00890
回归方程为y=4.14260+0.49482x1+0.00890x2;
工厂产量y及工人数x1、成本x2的有关数据如下
为基本产量,当成本x2固定时,工人数x1每增加一个单位,产量y就增加0.49482个单位,同理当成本x1固定时,成本x2每增加一个单位,产量y就增加0.00890个单位。
(2)求出方差分析、参数估计的结果
方差分析:
由方差分析图可以知道
=4.64515
=SSM/SST=27272/27304=0.9988
F值为2935.52
参数估计
第五题:
datat5;
inputx1-x7;
cards;
12.516.416.722.829.33.01726.6
7.89.910.212.617.60.84110.6
13.410.99.910.913.91.77217.8
19.119.819.029.739.62.44935.8
8.09.88.911.916.20.78913.7
9.74.24.24.66.50.8743.9
0.60.70.70.81.10.0561.0
13.99.49.39.813.32.12617.1
9.111.39.512.216.41.32711.6
;
procprincomp;
run;
特征值:
x1=6.36880695,x2=0.39792475,x3=0.16038442,x4=0.04542733,x5=0.02241485,x6=0.00474882.
X7=0.00029289;
贡献率和累计贡献率分别为:
各主成分分别为:
由于W1已经达到了90%所以第一主成分为
w1=0.348824X1+0.390078X2+0.391810X3+0.385562X4+0.383622X5+0.353720X6+0.389491x7
六:
datat6;
inputxy$x1-x7;
cards;
136.057.137.7516.6711.682.3812.88
137.697.018.9416.1511.080.8311.67
138.696.018.8214.7911.441.7413.23
137.759.618.4913.159.761.2811.28
135.718.048.3115.137.761.4113.25
139.778.4912.9419.2711.052.0413.29
140.917.328.9417.6012.751.1414.80
133.707.5910.9818.8214.731.7810.10
135.024.726.2810.037.151.9310.39
252.417.709.9812.5311.702.3114.69
252.653.849.1613.0315.261.9814.57
255.855.507.459.559.522.2116.30
244.687.3214.5117.1312.081.2611.57
245.797.6610.3616.5612.862.7511.69
250.3711.3513.3019.2514.592.7514.87
;
datat61;
inputx1-x7;
cards;
64.348.0022.2220.0615.120.7222.89
;
procdiscrimdata=t6testdata=t61
out=a1
outstat=a2outcross=a3
testout=a4method=normal
listcrosslisttestlistall;
classxy;
varx1-x7;
priorsequal;
run;
(1)求出三个协方差矩阵;
S!
=
S2=
S=
(2)用距离判别求出线性判别函数,用交叉确认法计算误判率;
由上图可以知道线性判别函数为:
W!
=-206.18758+16.6024x1-2.77150x2-5.80267x3+14.17359x4-8.00073x5+7.49174x6-22.87514x7
W2=-382.57458+23.14210x1-3.89531x2-5.94472x3+17.23215x4-10.19191x5+12.60276x6-32.83581x7
用交叉确认法计算误判率P=2/15=13.33%
(3)判别待判样品属于哪一类.
判别待判样品属于2类
七、(15分)利用上一题的数据(共16个)进行聚类分析:
(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);
(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;
(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.
datat7;
inputx1-x7;
cards;
36.057.137.7516.6711.682.3812.88
37.697.018.9416.1511.080.8311.67
38.696.018.8214.7911.441.7413.23
37.759.618.4913.159.761.2811.28
35.718.048.3115.137.761.4113.25
39.778.4912.9419.2711.052.0413.29
40.917.328.9417.6012.751.1414.80
33.707.5910.9818.8214.731.7810.10
35.024.726.2810.037.151.9310.39
52.417.709.9812.5311.702.3114.69
52.653.849.1613.0315.261.9814.57
55.855.507.459.559.522.2116.30
44.687.3214.5117.1312.081.2611.57
45.797.6610.3616.5612.862.7511.69
50.3711.3513.3019.2514.592.7514.87
64.348.0022.2220.0615.120.7222.89
;
procclusterdata=t7method=sinstdnonormouttree=tree1;
varx1-x7;
run;
proctreedata=tree1graphicshorizontalout=c1nclusters=4;
run;
procprintdata=c1;
run;
procclusterdata=t7method=comstdnonormouttree=tree2;
varx1-x7;
run;
proctreedata=tree2graphicshorizontalout=c2nclusters=4;
run;
procprintdata=c2;
run;
procfastclusmaxc=3distancelistcluster=c
data=t6out=d;
run;
procplot;
plotx2*x1=c;
run;
(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);
(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;
(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.