《 数据分析》课程期末考试试题A卷.docx

上传人:b****5 文档编号:6752497 上传时间:2023-01-10 格式:DOCX 页数:18 大小:150.20KB
下载 相关 举报
《 数据分析》课程期末考试试题A卷.docx_第1页
第1页 / 共18页
《 数据分析》课程期末考试试题A卷.docx_第2页
第2页 / 共18页
《 数据分析》课程期末考试试题A卷.docx_第3页
第3页 / 共18页
《 数据分析》课程期末考试试题A卷.docx_第4页
第4页 / 共18页
《 数据分析》课程期末考试试题A卷.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

《 数据分析》课程期末考试试题A卷.docx

《《 数据分析》课程期末考试试题A卷.docx》由会员分享,可在线阅读,更多相关《《 数据分析》课程期末考试试题A卷.docx(18页珍藏版)》请在冰豆网上搜索。

《 数据分析》课程期末考试试题A卷.docx

《数据分析》课程期末考试试题A卷

命题方式:

单独命题

佛山科学技术学院2008—2009学年第一学期

《数据分析》课程期末考试试题A卷

专业、班级:

姓名:

学号:

题号

十一

十二

总成绩

得分

说明:

1.请仔细阅读题目,按要求在SAS软件系统编程运算;

2.将SAS程序及运算的有关结果作为解答copy到试卷的后面.

一、(12分)有关SAS的简答题:

1、SAS所采用的Windows操作系统中,SAS界面有哪三个部分?

日志框,编辑框,输出窗口

2、怎样输入非数值变量?

在非数值变量后面加“$”

3、与固定格式不同的自由格式输入数据应加上何种标记?

加上”@@”

4、写出三均值的计算公式。

二、(15分)北京市GDP同比增长1978~1995年的数据如下:

100.00107.57112.4296.21121.58107.21117.16116.19101.37109.78112.83104.37105.40109.50111.60112.10113.50112.40

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数,上、下四分位数,四分位极差;

(3)做出直方图、QQ图、茎叶图、箱线图;

(4)进行正态性

检验(取

).

 

共3页第1页

三、(15分)已知数据如下:

x1x2x3x4

16.726.76.435.0

18.228.03.229.7

16.726.72.134.9

18.126.74.331.5

16.726.03.032.7

18.130.27.034.9

20.230.54.834.4

20.229.55.536.2

21.531.55.836.5

18.830.65.435.4

21.627.85.434.1

21.329.55.835.8

(1)计算协方差矩阵,Pearson相关矩阵;

(2)分析各指标间的相关性(取

).

 

四、(15分)已知某工厂产量y及工人数x1、成本x2的有关数据如下:

序号yx1x2

11692653782

281983008

31923302450

41161952137

555532560

61622742450

71201803254

82233753802

91312052838

1067862347

(1)求回归方程,给出各参数的实际解释;

(2)求出方差分析、参数估计的结果;

 

五、(13分)已知数据如下:

x1x2x3x4x5x6x7

12.516.416.722.829.33.01726.6

7.89.910.212.617.60.84110.6

13.410.99.910.913.91.77217.8

19.119.819.029.739.62.44935.8

8.09.88.911.916.20.78913.7

9.74.24.24.66.50.8743.9

0.60.70.70.81.10.0561.0

13.99.49.39.813.32.12617.1

9.111.39.512.216.41.32711.6

对以上样本进行主成分分析,并求出相应的主成分.

共3页第2页

六、(15分)已知数据如下:

序号类别x1x2x3x4x5x6x7

36.057.137.7516.6711.682.3812.88

37.697.018.9416.1511.080.8311.67

38.696.018.8214.7911.441.7413.23

37.759.618.4913.159.761.2811.28

35.718.048.3115.137.761.4113.25

39.778.4912.9419.2711.052.0413.29

40.917.328.9417.6012.751.1414.80

33.707.5910.9818.8214.731.7810.10

35.024.726.2810.037.151.9310.39

52.417.709.9812.5311.702.3114.69

52.653.849.1613.0315.261.9814.57

55.855.507.459.559.522.2116.30

44.687.3214.5117.1312.081.2611.57

45.797.6610.3616.5612.862.7511.69

50.3711.3513.3019.2514.592.7514.87

64.348.0022.2220.0615.120.7222.89

(1)求出三个协方差矩阵;

(2)用距离判别求出线性判别函数,用交叉确认法计算误判率;

(3)判别待判样品属于哪一类.

七、(15分)利用上一题的数据(共16个)进行聚类分析:

(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);

(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;

(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.

共3页第3页

(1)SAS界面包括

输出框,日志框,编辑器

(2)在非数值变量后面家上”$”符号.

(3)自由格式输入数据应加上”@@”标记.

(4)三均值的计算公式

=1/4Q1+1/2M+1/4Q3

 

程序:

datat1;

inputx@@;

cards;

100.00107.57112.4296.21121.58107.21117.16116.19101.37

109.78112.83104.37105.40109.50111.60112.10113.50112.40

procunivariateplotnormal;

run;

proccapabilitygraphicsnormal;

histogramx/normal;

qqplotx/normal(….);

run;

(1)由上图可知道

均值:

109.510556方差:

40.5703938

变异系数:

5.81632451峰度:

0.05978054

偏度:

-0.3324812

(2)

中位数:

上四分位数:

下四分位数:

四分位极差:

(3)做出直方图、QQ图、茎叶图、箱线图

直方图:

QQ图

茎叶图:

箱线图:

(4)进行正态性

检验(取

).

由上图可以知道Wo=0.978265,P=0.9304>

;

故不能拒绝原假设Ho,所以是高度显著的。

 

datat2;

inputx1-x4;

cards;

16.726.76.435.0

18.228.03.229.7

16.726.72.134.9

18.126.74.331.5

16.726.03.032.7

18.130.27.034.9

20.230.54.834.4

20.229.55.536.2

21.531.55.836.5

18.830.65.435.4

21.627.85.434.1

21.329.55.835.8

proccorrcovpearson;

run;

(1)计算协方差矩阵,Pearson相关矩阵;

协方差矩阵:

Pearson相关矩阵:

(2)分析各指标间的相关性(取

由Pearson相关矩阵的上三角矩阵看出r13,r14都大于

故这些向量的相关性不是很强。

 

四:

datat4;

inputnum$yx1x2;

cards;

11692653782

281983008

31923302450

41161952137

555532560

61622742450

71201803254

82233753802

91312052838

1067862347

;

procregdata=t4;

modely=x1-x2/i;

run;

(1)求回归方程,给出各参数的实际解释

由上图可以知道

=4.14260,

=0.49482,

=0.00890

回归方程为y=4.14260+0.49482x1+0.00890x2;

工厂产量y及工人数x1、成本x2的有关数据如下

为基本产量,当成本x2固定时,工人数x1每增加一个单位,产量y就增加0.49482个单位,同理当成本x1固定时,成本x2每增加一个单位,产量y就增加0.00890个单位。

 

(2)求出方差分析、参数估计的结果

方差分析:

由方差分析图可以知道

=4.64515

=SSM/SST=27272/27304=0.9988

F值为2935.52

参数估计

第五题:

datat5;

inputx1-x7;

cards;

12.516.416.722.829.33.01726.6

7.89.910.212.617.60.84110.6

13.410.99.910.913.91.77217.8

19.119.819.029.739.62.44935.8

8.09.88.911.916.20.78913.7

9.74.24.24.66.50.8743.9

0.60.70.70.81.10.0561.0

13.99.49.39.813.32.12617.1

9.111.39.512.216.41.32711.6

;

procprincomp;

run;

特征值:

x1=6.36880695,x2=0.39792475,x3=0.16038442,x4=0.04542733,x5=0.02241485,x6=0.00474882.

X7=0.00029289;

贡献率和累计贡献率分别为:

各主成分分别为:

由于W1已经达到了90%所以第一主成分为

w1=0.348824X1+0.390078X2+0.391810X3+0.385562X4+0.383622X5+0.353720X6+0.389491x7

 

六:

datat6;

inputxy$x1-x7;

cards;

136.057.137.7516.6711.682.3812.88

137.697.018.9416.1511.080.8311.67

138.696.018.8214.7911.441.7413.23

137.759.618.4913.159.761.2811.28

135.718.048.3115.137.761.4113.25

139.778.4912.9419.2711.052.0413.29

140.917.328.9417.6012.751.1414.80

133.707.5910.9818.8214.731.7810.10

135.024.726.2810.037.151.9310.39

252.417.709.9812.5311.702.3114.69

252.653.849.1613.0315.261.9814.57

255.855.507.459.559.522.2116.30

244.687.3214.5117.1312.081.2611.57

245.797.6610.3616.5612.862.7511.69

250.3711.3513.3019.2514.592.7514.87

;

datat61;

inputx1-x7;

cards;

64.348.0022.2220.0615.120.7222.89

;

 

procdiscrimdata=t6testdata=t61

out=a1

outstat=a2outcross=a3

testout=a4method=normal

listcrosslisttestlistall;

classxy;

varx1-x7;

priorsequal;

run;

(1)求出三个协方差矩阵;

S!

=

S2=

S=

(2)用距离判别求出线性判别函数,用交叉确认法计算误判率;

由上图可以知道线性判别函数为:

W!

=-206.18758+16.6024x1-2.77150x2-5.80267x3+14.17359x4-8.00073x5+7.49174x6-22.87514x7

W2=-382.57458+23.14210x1-3.89531x2-5.94472x3+17.23215x4-10.19191x5+12.60276x6-32.83581x7

用交叉确认法计算误判率P=2/15=13.33%

(3)判别待判样品属于哪一类.

判别待判样品属于2类

七、(15分)利用上一题的数据(共16个)进行聚类分析:

(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);

(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;

(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.

datat7;

inputx1-x7;

cards;

36.057.137.7516.6711.682.3812.88

37.697.018.9416.1511.080.8311.67

38.696.018.8214.7911.441.7413.23

37.759.618.4913.159.761.2811.28

35.718.048.3115.137.761.4113.25

39.778.4912.9419.2711.052.0413.29

40.917.328.9417.6012.751.1414.80

33.707.5910.9818.8214.731.7810.10

35.024.726.2810.037.151.9310.39

52.417.709.9812.5311.702.3114.69

52.653.849.1613.0315.261.9814.57

55.855.507.459.559.522.2116.30

44.687.3214.5117.1312.081.2611.57

45.797.6610.3616.5612.862.7511.69

50.3711.3513.3019.2514.592.7514.87

64.348.0022.2220.0615.120.7222.89

;

procclusterdata=t7method=sinstdnonormouttree=tree1;

varx1-x7;

run;

proctreedata=tree1graphicshorizontalout=c1nclusters=4;

run;

procprintdata=c1;

run;

procclusterdata=t7method=comstdnonormouttree=tree2;

varx1-x7;

run;

proctreedata=tree2graphicshorizontalout=c2nclusters=4;

run;

procprintdata=c2;

run;

procfastclusmaxc=3distancelistcluster=c

data=t6out=d;

run;

procplot;

plotx2*x1=c;

run;

(1)最短距离法,写出聚类过程,画出谱系图(取nclusters=4);

(2)最长距离法,写出聚类过程,画出谱系图(取nclusters=4),求出四个聚类统计量;

(3)快速聚类法分3类的结果,在平面坐标系中画出分类图.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1