数据分析实验报告1408024111张冉.docx

上传人:b****7 文档编号:11203454 上传时间:2023-02-25 格式:DOCX 页数:46 大小:644.16KB
下载 相关 举报
数据分析实验报告1408024111张冉.docx_第1页
第1页 / 共46页
数据分析实验报告1408024111张冉.docx_第2页
第2页 / 共46页
数据分析实验报告1408024111张冉.docx_第3页
第3页 / 共46页
数据分析实验报告1408024111张冉.docx_第4页
第4页 / 共46页
数据分析实验报告1408024111张冉.docx_第5页
第5页 / 共46页
点击查看更多>>
下载资源
资源描述

数据分析实验报告1408024111张冉.docx

《数据分析实验报告1408024111张冉.docx》由会员分享,可在线阅读,更多相关《数据分析实验报告1408024111张冉.docx(46页珍藏版)》请在冰豆网上搜索。

数据分析实验报告1408024111张冉.docx

数据分析实验报告1408024111张冉

 

 

实验课程:

数据分析

专业:

信息与计算科学

班级:

14080241

学号:

**********

******************************************

 

中北大学理学院

实验一SAS系统的使用

【实验目的】使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。

【实验内容】

1.将SCORE数据集的内容复制到一个临时数据集test。

SCORE数据集

Name

Sex

Math

Chinese

English

Alice

f

90

85

91

Tom

m

95

87

84

Jenny

f

93

90

83

Mike

m

80

85

80

Fred

m

84

85

89

Kate

f

97

83

82

Alex

m

92

90

91

Cook

m

75

78

76

Bennie

f

82

79

84

Hellen

f

85

74

84

Wincelet

f

90

82

87

Butt

m

77

81

79

Geoge

m

86

85

82

Tod

m

89

84

84

Chris

f

89

84

87

Janet

f

86

65

87

2.将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:

math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。

3.将2题中得到的good,normal,bad数据集合并。

【实验所使用的仪器设备与软件平台】

台式电脑,SAS软件

【实验方法与步骤】

1.将SCORE数据集的内容复制到一个临时数据集test

程序:

DATAscore;

inputName$Sex$MathChineseEnglish;

Cards;

Alicef908591

Tomm958784

Jennyf939083

Mikem808580

Fredm848589

Katef978382

Alexm929091

Cookm757876

Bennief827984

Hellenf908287

Winceletf908287

Buttm778179

Geogem868582

Todm898484

Chrisf898487

Janetf866587

;

run;

PROCPRINTDATA=socre;

实验结果:

2、将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:

math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。

程序:

datatext;

setsocre;

DATAgoodnormalbad;

setsocre;

select;

when(math>=90)outputgood;

when(math>=80&math<90)outputnormal;

when(math<80)outputbad;

end;

run;

procprintdata=good;

procprintdata=normal;

procprintdata=bad;

dataall;

setgoodnormalbad;

procprintdata=all;

run;

实验结果:

(1)math大于等于90的到good数据集:

(2)math在80到89之间的到normal数据集:

(3)math在80以下的到bad数据集:

实验二 上市公司的数据分析

【实验目的】通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。

【实验内容】表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price).

表2某上市公司的数据表

代码

流通盘

每股收益

股票价格

000096

8500

0.059

13.27

000099

6000

0.028

14.2

000150

12600

-0.003

7.12

000151

10500

0.026

10.08

000153

2500

0.056

22.75

000155

13000

-0.009

6.85

000156

3600

0.033

14.95

000157

10000

0.06

12.65

000158

10000

0.018

8.38

000159

7000

0.008

12.15

000301

15365

0.04

7.31

000488

7700

0.101

13.26

000725

6000

0.044

12.33

000835

1338

0.07

22.58

000869

3200

0.194

18.29

000877

7800

-0.084

12.55

000885

6000

-0.073

12.48

000890

16934

0.031

9.12

000892

12000

0.031

7.88

000897

14166

0.002

6.91

000900

21423

0.058

8.59

000901

4800

0.005

27.95

000902

6500

-0.031

10.92

000903

6000

0.109

11.79

000905

9500

0.046

9.29

000906

6650

0.007

14.47

000908

8988

0.006

8.28

000909

6000

0.002

9.99

000910

8000

0.036

8.9

000911

7280

0.067

9.01

000912

15000

0.112

8.06

000913

8450

0.062

11.86

000915

4599

0.001

14.4

000916

34000

0.038

5.15

000917

11800

0.086

16.23

000918

6000

-0.045

10.12

1、对股票价格

1)计算均值、方差、标准差、变异系数、偏度、峰度;

2)计算中位数,上、下四分位数,四分位极差,三均值;

3)作出直方图;

4)作出茎叶图;

5)进行正态性检验(正态W检验);

6)计算协方差矩阵,Pearson相关矩阵;

7)计算Spearman相关矩阵;

8)分析各指标间的相关性。

2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;

2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;

3)拟合残差关于拟合值

的残差图及残差的正态QQ图。

分析这些残差,并予以评述。

【实验结果】

1.程序:

dataprice;

inputx@@;

cards;

13.2714.27.1210.0822.756.85

14.9512.658.3812.157.3113.26

12.3322.5818.2912.5512.489.12

7.886.918.5927.9510.9211.79

9.2914.478.289.998.99.01

8.0611.8614.45.1516.2310.12

;

procprintdata=price;

run;

procmeansmeanvarstdcvskewnesskurtosis;

varx;

run;

procunivariateplotnormal;

run;

proccapabilitygraphics;

histogramx/normal;

run;

结果:

1)均值、方差、标准差、变异系数、偏度、峰度如图所示:

方差较大可看出样本数据值比较分散

偏度为正可得出样本总体分布是在右侧更为扩展的

峰度为正可得出样本总体分布中极端数值分布范围较广。

2)计算中位数,上、下四分位数,四分位极差,三均值

由procunivariate过程得:

从图中可知:

中位数:

M=11.355

上四分位数:

Q3=13.735

下四分位数:

Q1=8.485

四分位极差:

5.25000

三均值:

1/4(下四分位数)+1/2(中位数)+1/4(上四分位数)=11.232

3)作出直方图

由proccapability过程得:

从图中可以看出数据偏右。

从直方图上很难鉴别样本是否近似与某种类型的分布。

4)作出茎叶图;

从图中可以看出,绝大部分数据集中在

之间,在

之间形成一个高峰。

没有

之间的数据,有一个异常数据为280.

5)进行正态性检验(正态W检验);

有procuniwariate过程,算得:

W=0.872266

P值为:

6)计算协方差矩阵,Pearson相关矩阵;

程序:

dataa1;

inputepsscaleprice;

cards;

85000.05913.27

60000.02814.2

12600-0.0037.12

105000.02610.08

25000.05622.75

13000-0.0096.85

36000.03314.95

100000.0612.65

100000.0188.38

70000.00812.15

153650.047.31

77000.10113.26

60000.04412.33

13380.0722.58

32000.19418.29

7800-0.08412.55

6000-0.07312.48

169340.0319.12

120000.0317.88

141660.0026.91

214230.0588.59

48000.00527.95

6500-0.03110.92

60000.10911.79

95000.0469.29

66500.00714.47

89880.0068.28

60000.0029.99

80000.0368.9

72800.0679.01

150000.1128.06

84500.06211.86

45990.00114.4

340000.0385.15

118000.08616.23

6000-0.04510.12

;

proccorrdata=a1covpeardonspearman;

varepsscaleprice;

withepsscaleprice;

run;

结果:

由proccorr过程得:

7)Spearman相关矩阵;

8)分析各指标间的相关性

均值

方差

标准差:

变异系数:

峰度:

偏度:

 

2、程序:

datahzp;

inputx1x2y;

cards;

85000.05913.27

60000.02814.2

12600-0.0037.12

105000.02610.08

25000.05622.75

13000-0.0096.85

36000.03314.95

100000.0612.65

100000.0188.38

70000.00812.15

153650.047.31

77000.10113.26

60000.04412.33

13380.0722.58

32000.19418.29

7800-0.08412.55

6000-0.07312.48

169340.0319.12

120000.0317.88

141660.0026.91

214230.0588.59

48000.00527.95

6500-0.03110.92

60000.10911.79

95000.0469.29

66500.00714.47

89880.0068.28

60000.0029.99

80000.0368.9

72800.0679.01

150000.1128.06

84500.06211.86

45990.00114.4

340000.0385.15

118000.08616.23

6000-0.04510.12

;

procprint;

run;

procregdata=hzp;

modely=x1x2;

outputout=ap=pr=rstudent=stdr;

procprintdata=a;

run;

procgplotdata=a;

plotx1*r=1x2*r=2y*r=3;

run;

proccapabilitydata=agraphics;

qqplotr/normal;

run;

1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;

设Y与X1,X2,X3的观测值之间满足关系:

其中

相互独立,均服从正态分布

方差分析输出结果:

参数估计输出结果:

其中r为残差。

2)给定显著性水平α=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;

1.流通盘(scale)

拒绝原假设认为股票价格(price)与流通盘(scale)之间存在显著的显著回归关系

2.每股收益(eps)

拒绝原假设认为股票价格(price)与每股收益(eps)之间存在显著的显著回归关系

3)拟合残差关于拟合值

的残差图及残差的正态QQ图。

分析这些残差,并予以评述。

拟合值

的残差图:

残差的正态QQ图:

从图中可以得出:

1.正态QQ图中散点图是弯曲的,在一条直线的下方,可认为数据不是来自正态分布总体,且样本的偏度为正。

2.残差图中出现4个或者4个以上的‘*’好的那些点所对应的学生化残差的绝对值大于2,被认为是残差较大的可疑点。

如果这些点所占的比例较大,则表明模型模拟的不合适。

实验三 美国50个州七种犯罪比率的数据分析

【实验目的】通过使用SAS软件对实验数据进行主成分分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。

【实验内容】表3给出的是美国50个州每100000个人中七种犯罪的比率数据。

这七种犯罪是:

Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。

表3美国50个州七种犯罪的比率数据

State

Murder

Rape

Robbery

Assault

Burglary

Larceny

Auto

Alabama

14.2

25.2

96.8

278.3

1135.5

1881.9

280.7

Alaska

10.8

51.6

96.8

284.0

1331.7

3369.8

753.3

Arizona

9.5

34.2

138.2

312.3

2346.1

4467.4

439.5

Arkansas

8.8

27.6

83.2

203.4

972.6

1862.1

183.4

California

11.5

49.4

287.0

358.0

2139.4

3499.8

663.5

Colorado

6.3

42.0

170.7

292.9

1935.2

3903.2

477.1

Connecticut

4.2

16.8

129.5

131.8

1346.0

2620.7

593.2

Delaware

6.0

24.9

157.0

194.2

1682.6

3678.4

467.0

Florida

10.2

39.6

187.9

449.1

1859.9

3840.5

351.4

Georgia

11.7

31.1

140.5

256.5

1351.1

2170.2

297.9

Hawaii

7.2

25.5

128.0

64.1

1911.5

3920.4

489.4

Idaho

5.5

19.4

39.6

172.5

1050.8

2599.6

237.6

Illinois

9.9

21.8

211.3

209.0

1085.0

2828.5

528.6

Indiana

7.4

26.5

123.2

153.5

1086.2

2498.7

377.4

Iowa

2.3

10.6

41.2

89.8

812.5

2685.1

219.9

Kansas

6.6

22.0

100.7

180.5

1270.4

2739.3

244.3

Kentucky

10.1

19.1

81.1

123.3

872.2

1662.1

245.4

Louisiana

15.5

30.9

142.9

335.5

1165.5

2469.9

337.7

Maine

2.4

13.5

38.7

170.0

1253.1

2350.7

246.9

Maryland

8.0

34.8

292.1

358.9

1400.0

3177.7

428.5

Massachusetts

3.1

20.8

169.1

231.6

1532.2

2311.3

1140.1

Michigan

9.3

38.9

261.9

274.6

1522.7

3159.0

545.5

Minnesota

2.7

19.5

85.9

85.8

1134.7

2559.3

343.1

Mississippi

14.3

19.6

65.7

189.1

915.6

1239.9

144.4

Missouri

9.6

28.3

189.0

233.5

1318.3

2424.2

378.4

Montana

5.4

16.7

39.2

156.8

804.9

2773.2

309.2

Nebraska

3.9

18.1

64.7

112.7

760.0

2316.1

249.1

Nevada

15.8

49.1

323.1

355.0

2453.1

4212.6

559.2

NewHampshire

3.2

10.7

23.2

76.0

1041.7

2343.9

293.4

NewJersey

5.6

21.0

180.4

185.1

1435.8

2774.5

511.5

NewMexico

8.8

39.1

109.6

343.4

1418.7

3008.6

259.5

NewYork

10.7

29.4

472.6

319.1

1728.0

2782.0

745.8

NorthCarolina

10.6

17.0

61.3

318.3

1154.1

2037.8

192.1

Ohio

7.8

27.3

190.5

181.1

1216.0

2696.8

400.4

NorthDakota

0.9

9.0

13.3

43.8

446.1

1843.0

144.7

Oklahoma

8.6

29.2

73.8

205.0

1288.2

2228.1

326.8

Oregon

4.9

39.9

124.1

286.9

1636.4

35061

388.9

Pennsylvania

5.6

19.0

130.3

128.0

877.5

1624.1

333.2

RhodeIsland

3.6

10.5

86.5

201.0

1489.5

2844.1

791.4

SouthCarolina

11.9

33.0

105.9

485.3

1613.6

2342.4

245.1

SouthDakota

2.0

13.5

17.9

155.7

570.5

1704.4

147.5

Tennessee

10.1

29.7

145.8

203.9

1259.7

1776.5

314.0

Texas

13.3

33.8

152.4

208.2

1603.1

2988.7

397.6

Utah

3.5

20.3

68.8

147.3

1171.6

3004.6

334.5

Vermont

1.4

15.9

30.8

101.2

1348.2

2201.0

265.2

Virginia

9.0

23.3

92.1

165.7

986.2

2521.2

226.7

Washington

4.3

39.6

106.2

224.8

1605.6

3386.9

360.3

WestVirginia

6.0

13.2

42.2

90.9

597.4

1341.7

163.3

Wisconsin

2.8

12.9

52.2

63.7

846.9

2614.2

220.7

Wyoming

5.4

21.9

39.7

173.9

811.6

2772.2

282.0

1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?

2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。

3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。

2、从样本相关矩阵出发,做因子分析。

【实验结果及分析】

1.程序:

dataa;

inputState$MurderRapeRobberyAssaultBurglaryLarcenyAuto;

cards;

Alabama14.225.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1