sas统计分析报告.docx
《sas统计分析报告.docx》由会员分享,可在线阅读,更多相关《sas统计分析报告.docx(17页珍藏版)》请在冰豆网上搜索。
sas统计分析报告
统计软件》报告
聚类分析和方差分析
在统计学成绩分析中的应用
班级:
精算0801班
姓名:
张倪
学号:
2008111500
报告时间:
2011年11月指导老师:
郝际贵成绩:
一、背景及数据来源1
二、描述性统计分析2
三、聚类分析4
四、方差分析6
五、结果分析与结论8
聚类分析和方差分析在统计学成绩分析中的应用
,、背景及数据来源
SAS系统全称为StatisticsAnalysisSystem最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASESAS模块。
BASESAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产
品。
也就是说,SAS系统的运行,首先必须启动BASESAS模块,它除了本身
所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调
度室。
它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。
各
模块的安装及更新都可通过其安装程序非常方便地进行。
本文利用SAS软件进行描述性统计、聚类分析等统计分析方法,将学生按照多指标综合考虑进行聚类。
数据来源:
选取2010—2011第一学期统计学选教课成绩单,选取性别系别等变量进行考察。
将中文名称改为英文。
数据类型如下所示:
学号
性别
班级
系部
课程名称
老师
平时成绩
期末成绩
总评
学年
数值型
数值型
字符型
字符型
字符型
字符型
数值型
数值型
数值型
数值型
Sn
Sex
class
dept
title
teacher
S1
S2
S3
year
当输入字符型的变量时,需要加上符号$在该变量的后面,用于区分数值型
变量,所以用$来作为后缀。
删除缺考错误分数等异常值。
命名为2010stat.xls
】、描述性统计分析
(一)导入数据
首先建立永久磁盘路径,导入数据集stat
libnamepath"D:
\sas\";
run;
(二)描述性统计分析
然后进行描述性统计对性别、平时成绩、期末成绩、总评成绩进行计算,代码如下:
procmeansdata=path.stat;
varsexs1s2s3;
run;
输出结果如下:
MEANSPROCEDURE
吏星标签N均值标准差垢小值援大值
6123sssS
6123SSSS
4969
2080
665B
C.37068970.483138286.2S5270415.840939474.289407318J64176677.1490367IB.5374497
il
0
5,0000000
0
1.0000000100.0000000100.0000000100.0000000
从结果可以分析出,总体学生平时成绩平均分为86.28分,总评成绩均分为
77.15分。
按照系别分类,每个系进行描述性统计,代码如下:
procmeansdata=path.stat;
varsexsis2s3;
classdept;
run;
运行的输出结果如下所示:
d@pt
观测的亍数
变量
标签
N
均值
标准差
摄小值
摄犬值
财政丢
221
sex
sex
221
0.3800905
0.4865108
0
1.0000000
si
si
221
87.5610360
15.5391625
0
100.0000000
s2
s2
221
75.6515037
19.8630745
5.0000000
100.0000000
s3
s3
221
78.2821267
17.8623447
11.2000000
100.0000000
管理科学与工程系
105
sex
sex
105
0.4380952
0.4985326
0
1.0000000
si
si
105
88.9714206
11.1091241
50.0000000
100.0000000
或
或
105
77.8380952
16.2977041
12.0000000
100.0000000
s3
s3
105
01.1000000
14.2162380
81.8000000
100.0000000
国际经济贸易系.
142
sex
sex
142
0.3073239
0.4883631
0
1.0000000
si
§1
142
85.2464739
15.9022665
0
100.0000000
£2
£2
140
72.8500000
19.1333544
17.0000000
100.0000000
s3
s3
142
75.8584507
18.7036206
0
100.0000000
会计系
429
sex
sex
429
0.3240093
0.4685499
0
1.0000000
si
si
429
89.1165501
11.9393104
33.0000000
100.0000000
s2
s2
429
77.6011666
18.1890094
8.0000000
100.0000000
s3
虏
429
80.9867133
15.6030996
27.8000000
100.0000000
35
sex
sex
35
0.3423571
0.4815940
n
1.0000000
si
si
35
84.2285714
14.4834301
37.0000000
100.0000000
s2
s2
35
72.2571429
21.0116314
12.0000000
97.0000000
53
s3
35
75.8571429
18,5197079
28.4000000
97.9000000
留学生
56
sex
sex
56
0.8085714
0.4689609
0
1.0000000
si
si
56
77.4642057
16.1627679
0
95.0000000
£
55
61.9810182
8.1114709
47.0000000
80.0000000
s3
s3
56
65.8517057
11.4553519
0
83.0000000
101
sex
sex
101
0.2071207
0.4546786
U
1.0000000
si
si
101
82.2079208
23.4500318
0
100.0000000
或
s2
90
75,0777778
18.0260908
16.0000000
100.0000000
101
71.9970297
26.7744298
0
100.0000000
0.4634146
0.5017284
0
1.0000000
81.0731707
18.9103019
0
100.0000000
65.8510519
22.8057619
17.0000000
99.0000000
69.8609756
21.5164178
0
99.8000000
市场営销系
207
sex
§1
sex
si
s2
s3
237
237
279
237
0.3067596
85.3972125
72.4695341
74.9414634
0.48785S5
17.8710139
18.7183101
19.9953278
0
0
16.0000000
0
1.0000000
100.0000000
100.0000000
IUU.UUUUUUU
数学丢
36
sex
sex
36
0,3611111
0.4871361
0
1.0000000
创
创
36
34.3611111
7.7317630
75.0000000
100.0000000
s2
s2
36
83.166BBB7
16.9073108
31.0000000
100.0000000
s3
s3
36
86.5130009
13.6230928
47.0000000
100.0000000
体育生
15
Sgx
15
0.3333333
0.4879500
0
1.0000000
si
si
0
-
-
-
-
s2
s3
s2
s3
0
0
从结果可以分析得出,
和最小值。
其中,会计系、财政系和市场营销系人数众多,除了经济系、市场营
销系和留学生以外,各系都有100分
(三)统计图
绘制频率直方图,直方图可以良好的反映各系的人数和性别比例。
代码如下
所示:
procgchartdata=path.stat;
vbardept/type=sumsubgroup=sex;
run;
统计直方图如下所示:
醫计專
Enr主
直方图的横轴是系别变量,
纵轴是人数。
蓝色是男生红色是女生。
根据直万
三、聚类分析
输入代码:
procclusterdata=path.statmethod=wardouttree=treestandardpseudoccc;
proctreedata=treegraphicshorizontal;
run;
上述程序说明了使用系统聚类法来进行研究,并且绘制出聚类分析结果的树
状图。
ccc说明需要计算半偏R2、R2和CCC统计量。
这三个统计量和下面的伪F和伪T2统计量主要用于检验聚类的效果。
当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,半偏R2统计量大说明信息的损失程度大。
R2统计量反映了类内离差平方和的大小,R2统计量大说明类内离差平方和小。
CCC统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪T2统计量一般认为伪F统计量在出现峰值的是
Tie
所对应的分类是较佳的分类选择。
当把数据从G+1类合并为G类时,如果伪T2统计量的值大,说明不应该合并这两类。
后面的tree过程是用来绘制聚类分析结果的树状图。
运行结果如下:
TheCLUSTERProcedure
Yard'sMinimumVarianceClusterAnalysis
ClusterHistory
12
PS
PS
27842096320626070247846557502109698663460603■2-»9-*・・■5■■■■・・2»»Ao■»-3■■-o■ft-o11Qv9-fc3-2-cvnV48141653218382121O11819514B12191543511144G629677—844783821395-4134321
9768139879427350333408425060492085253779843
2086531098887765310875554433221002139475704■
8877777766666666666555555555555555543320876
NCL
--Clusters
J□ir^d—
FREE
SPRSQ
RSQ
ERSQ
CCC
44
CLH68
CL91
28
0.0007
.981
eaa
107
43
CL62
CL151
116
0.0007
.880
.897
10E
42
CL93
CLII66
32
0.0007
S?
9
895
104
41
CL144
CL53
236
0,000?
.979
.084
109
40
C口9
CL99
5S
0,0008
.878
892
102
39
CL64
CL81
55
0.0008
.977
.891
101
38
CL61
CLS5
37
D.0008
.076
.889
98.7
37
CL58
OB1574
3
0.0008
.975
8S8
98.7
36
CL75
CL63
13?
0.0009
.875
.8»B
37J
35
0626S
CL78
4
0.0009
.874
.884
96.7
34
CLS2
CL83
36
0.0009
.S?
3
.602
95.9
33
CL59
CL74
38
0,0009
.972
.860
95.1
32
CLC5
CL44
42
0.0010
.971
878
94.2
31
CL49
CL97
102
D.OQIO
.S70
.876
93.3
30
081358
CL57
12
0.0012
.S69
.874
92.2
29
CL60
CL94
111
D.OOU
S67
.872
90.9
28
CL30
OBI596
13
0.0015
.966
89.4
27
CL55
CL33
156
0.001C
.964
M7
瞬』
2E
CL4«
CL42
105
.863
864
86.4
25
CL36
CL43
259
0.0020
.981
.eei
84.6
24
C口2
CL40
30
0.0020
*8网
33.2
23
CL38
CL51
58
D.0021
.S56
.855
81.7
n
CL52
CL31
197
0.0021
.S54
.851
80.4
21
CL67
CL70
17
0.0022
.952
78.2
20
CL羽
CL47
30
0.0026
.948
.644
77.8
19
CL29
CL45
155
0.0029
.846
.838
76J
ie
CL34
CL39
91
.943
Mb
74.8
17
CL22
CL56
243
0,003C
940
830
73.1
16
CL35
CL37
1
0.0040
.935
.824
7L3
15
CL26
CL24
135
0.0041
.S32
.31S
IG9.9
14
CL20
CL32
72
0.0057
*S26
.812
67.4
13
CL559
CL54
4
D血闊
.820
.804
!
56.3
12
CL贈
CL27
265
o.ooes
.796
'54.9
11
CL41
CL25
4S9
0.0069
.908
.7B6
53.7
10
CL18
CL21
ioe
0.0102
775
5L2
9
CL14
CL23
130
0.0170
.079
.7B2
45,6
8
CL1:
8
CLW
冰
0.0185
.861
746
41,6
1
CL17
CL15
428
D.0242
.B37
.726
36.8
8
CL16
CL13
11
0J84S
.S02
JOI
30.5
5
CL12
CL8
528
0.0783
.728
.669
15J
4
CL11
CL?
81?
0.1036
詔25
.B£3
0.4?
3
CL6
CL9
141
(k1640
.471
540
-12
2
CL5
CL4
1445
0.1820
.289
.421
-16
1
CL2
CL3
15SC
0,2887
000
.000
0,00
上面的运行结果给出了对样品的聚类过程。
SPRSQ为半偏R2统计量、RSQ为R2统计量、CCC为立方聚类标准、PSF为伪F统计量、PST2为伪T2统计量。
(S.ooan.站DD5imOi.li&o口.T曲0.151)flISOi.iTOO.iSS。
濒0总蓄O.3tm
i~F*r"l!
i41R-Squli,*d
结果分析:
从半偏R2统计量的结果可以看出,当样本数据从3类合并为2
类时,信息的损失程度较前面的的合并有明显的增加。
从R2统计量的结果可以
看出,当样本数据从3类合并为2类时,R2统计量较前面的合并显著减小,这意味着类内离差平方和增加,违背了Word's的分类原则。
从CCC统计量的结果可以看出,最大值对应的类数为3类。
从6类合并为5类时,伪T2统计量显著增加,伪T2统计量下降显著。
由聚类分析的分析结果的树状图可知分为3类也是符合图形的。
综合各类统
计量的结果,学生的统计学成绩分为3类比较合适。
四、方差分析
输入代码:
procglm;
classsexs3;
models3=sexs3sex*s1ss1ss2ss3ss4;
meanssl/duncan;
run;
输出结果如下所示:
TheGLMProcedure
dependentVariable:
scorescore
Source
DF
Sisof
Squares
Me紅nSquare
FValue
Pr>F
Model
S5
1O53561E.52
123947.20
1975.57
<.0001
Error
1591
9805J.98
82J4
CorrectedTotal
1616
10631573.49
R=Square
Cosff
VsrRoot
MSEscoreMean
0.990965
8.8742657.9208608S.25652
Source
DF
TypeTSS
MeanSquare
FValue
Pr>F
ml
54
10633219.42
135059.51
3109.01
<.0001
gender
1
111*$8
iii.es
L70
0,1919
mlRender
30
2193.21
75.11
L17
0.2471
Source
DF
Type11SS
Me*riSquire
FVftlue
Pr>F
ml
E4
10528845,10
194338.98
3108.06
<.0001
gender
1
111.88
111.09
L76
0JS18
mlRender
30
2193.21
73.11
L17
0.2471
Source
DF
TypeHISS
MeanSquare
FValue
Pr>F
ml
54
1D25G042.73
189926.72
3027.20
<.0001
gender
1
28.42
29.42
1.47
0.4936
mlRender
30
2193.21
73JI
L17
0.2471
Source
DF
TypeIVSS
Me*riSqutrs
FVftlue
Pr>F
ml
54*
1O36646L32
19197L51
3059J9
<.0001
gender
IHi
28.42
29.42
0.47
0.493E
mlRender
30
2193.21
73.11
1J7
0.2471
HNOTE:
OtherTypeJVTeslableHypothesesexistwhichmayyielddifferentSS.
TheGLMProcedure
Duncan?
sMultipleRan^eTestfarscone
NOTE:
ThistestcentroItheType1comparl$onwi^eerrorrate,nottheexpcrimentivi^eerrorrate.
Alpha0.05
ErrorDegreesofFreedom1531
ErrorMeanSquare62.74002
HarmonicMeanofCbIISizes7E6.7743
NOTE:
CelIsizesarenotEqual”
MumbercfMeans
Critic*丨Range
2
J9S?
Meanswiththe
samel^tterare
noti
sIgriifIcantIIydifferent-
DunueinGroupin笔
Mean
M
gertder
A
90.3730
1013
0
E
37.3841
S04
1
从输出结果可以看出,平时成绩对总评成绩有显著的影响。
性别对成绩影响中,女生成绩要优于男生,平均分比男生高,方差比男生小。
可见,在平时成绩和性别对学生统计学总评成绩的影响。
五、结果分析与结论
本文选取2010—2011年统计学成绩作为样本数据,运用SAS软件先对学生成绩进行描述性统计分析,再选用聚类分析法,最后进行方差分析。
聚类分析(ClusterAnalysis)根据样品的统计量将相似程度较大的样品聚合到一个小的分类单位,相似程度较小的聚合到一个大的分类单位,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,并将整个分类系统