1、1 数值分析实验指导 3)将下面Excel表格中的数据导入SAS数据集work.gnp;x1 x2 x3 x4 x5 x6 name 北京 190.33 43.77 7.93 60.54 49.01 90.4 天津 135.2 36.4 10.47 44.16 36.49 3.94 河北 95.21 22.83 9.3 22.44 22.81 2.8 山西 104.78 25.11 6.46 9.89 18.17 3.25 内蒙古 128.41 27.63 8.94 12.58 23.99 3.27 辽宁 145.68 32.83 17.79 27.29 39.09 3.47 吉林 159.3
2、7 33.38 18.37 11.81 25.29 5.22 黑龙江 116.22 29.57 13.24 13.76 21.75 6.04 上海 221.11 38.64 12.53 115.65 50.82 5.89 江苏 144.98 29.12 11.67 42.6 27.3 5.74 浙江 169.92 32.75 21.72 47.12 34.35 5 安徽 153.11 23.09 15.62 23.54 18.18 6.39 福建 144.92 21.26 16.96 19.52 21.75 6.73 江西 140.54 21.59 17.64 19.19 15.97 4.94
3、 山东 115.84 30.76 12.2 33.1 33.77 3.85 河南 101.18 23.26 8.46 20.2 20.5 4.3 湖北 140.64 28.26 12.35 18.53 20.95 6.23 湖南 164.02 24.74 13.63 22.2 18.06 6.04 广东 182.55 20.52 18.32 42.4 36.97 11.68 广西 139.08 18.47 14.68 13.41 20.66 3.85 四川 137.8 20.74 11.07 17.74 16.49 4.39 贵州 121.67 21.53 12.58 14.49 12.18
4、4.57 云南 124.27 19.81 8.89 14.22 15.53 3.03 陕西 106.02 20.56 10.94 10.11 18 3.29 甘肃 95.65 16.82 5.7 6.03 12.36 4.49 青海 107.12 16.45 8.98 5.4 8.78 5.93 宁夏 113.74 24.11 6.46 9.61 22.92 2.53 新疆 123.24 38 13.72 4.64 17.77 5.75 4)使用VIEWTABLE格式新建数据集earn,输入如表所示数据 Year earn 1981 125000 1982 136000 1983 122350
5、 1984 65200 1985 844600 1986 255000 1987 265000 1988 280000 1989 136000 2 3. 将sasuser.score数据集的内容复制到一个临时数据集test,要求只包含变量name, sex, math。4(将sasuser.score数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。5(将4题中得到的数据集good,normal,bad合并为数据集combine,并将数据集combine按照数学成绩
6、排序,然后打印排序后的数据集。【实验报告要求】1. 写出2. 1) 2) 3), 3,4,5的程序设计;2. 附上5题打印程序运行的结果。【实验方法或步骤】 1(SAS系统的启动:2种方法 1)双击桌面上的SAS快捷方式;2)单击屏幕左下角的“开始”菜单,在菜单中选择“程序”,在程序中选择The SAS System,最后选择The SAS System for Windows V8。2(数据的输入与输出 1)在SAS程序窗口下,直接输入数据以建立一个SAS数据集,其基本语句形式为: DATA name;INPUT variables;CARDS;data lines ;输出数据集的内容,可用
7、 PROC PRINT DATA=name;2)将其他格式的数据文件导入数据集. 3(能够利用已有的SAS数据集建立新的SAS数据集 1)两个数据集的合并 两数据集的串接:将A和B两个数据集串接成为一个名为“name”的新的SAS3 数值分析实验指导 数据集. DATA name;SET A B;两数据集的并接:若两个数据集的数据行数(即观测向量个数)相同且按相同顺序排列,可将两数据集并接以形成新的SAS数据集,其中数据集中变量的个数为原两数据集中的变量个数之和. MERGE A B;2)两个数据集的复制 DATA A;/A为新的数据集/ SET B;/B为要复制的数据集名/ KEEP var
8、iables;/希望保留的变量名/ DROP variables;/希望去掉的变量名/ 3)两个数据集的拆分 示例:将记录学生成绩的/数据集按性别分成两个数据集,即一个记录男生的成绩,一个记录女生的成绩。程序如下:Data scorem scoref;Set sasuser.score;Select (sex);When (m) output scorem;When (f) output scoref;End;Run;4 实验二 1991年全国各省、区、市城镇居民 月平均收入的数据分析 (综合性) 【实验学时】6学时 【实验目的】通过对1991年全国各省、区、市城镇居民月平均收入进行数据描述性
9、分析、判别分析、聚类分析和主成分分析,培养和提高学生应用统计软件SAS分析处理数据的能力,为以后的学习及应用打下良好的基础。【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人);X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。省(区市)类x1 x2 x3 x4 x5 x6 x7 x
10、8 x9 名 型 北京 1 170.03 110.2 59.76 8.38 4.49 26.8 16.44 11.9 0.41 天津 1 141.55 82.58 50.98 13.4 9.33 21.3 12.36 9.21 1.05 河北 1 119.4 83.33 53.39 11 7.52 17.3 11.79 12 0.7 上海 1 194.53 107.8 60.24 15.6 8.88 31 21.01 11.8 0.16 山东 1 130.46 86.21 52.3 15.9 10.5 20.61 12.14 9.61 0.47 湖北 1 119.29 85.41 53.02
11、13.1 8.44 13.87 16.47 8.38 0.51 广西 1 134.46 98.61 48.18 8.9 4.34 21.49 26.12 13.6 4.56 海南 1 143.79 99.97 45.6 6.3 1.56 18.67 29.49 11.8 3.82 四川 1 128.05 74.96 50.13 13.9 9.62 16.14 10.18 14.5 1021 云南 1 127.41 93.54 50.57 10.5 5.87 19.41 21.2 12.6 0.9 新疆 1 122.96 101.4 69.7 6.3 3.86 11.3 18.96 5.62 4
12、.62 山西 2 102.49 71.72 47.72 9.42 6.96 13.12 7.9 6.66 0.61 内蒙古 2 106.14 76.27 46.19 9.65 6.27 9.655 20.1 6.97 0.96 吉林 2 104.93 72.99 44.6 13.7 9.01 9.435 20.61 6.65 1.68 黑龙江 2 103.34 62.99 42.95 11.1 7.41 8.342 10.19 6.45 2.68 江西 2 98.089 69.45 43.04 11.4 7.95 10.59 16.5 7.69 1.08 河南 2 104.12 72.23 4
13、7.31 9.48 6.43 13.14 10.43 8.3 1.11 贵州 2 108.49 80.79 47.52 6.06 3.42 13.69 16.53 8.37 2.85 陕西 2 113.99 75.6 50.88 5.21 3.86 12.94 9.492 6.77 1.27 甘肃 2 114.06 84.31 52.78 7.81 5.44 10.82 16.43 3.79 1.19 青海 2 108.8 80.41 50.45 7.27 4.07 8.371 18.98 5.95 0.83 宁夏 2 115.96 88.21 51.85 8.81 5.63 13.95 22
14、.65 4.75 0.97 5 辽宁 3 128.46 68.91 43.41 22.4 15.3 13.88 12.42 9.01 1.41 江苏 3 135.24 73.18 44.54 23.9 15.2 22.38 9.661 13.9 1.19 浙江 3 162.53 80.11 45.99 24.3 13.9 29.54 10.9 13 3.47 安徽 3 111.77 71.07 43.64 19.4 12.5 16.68 9.698 7.02 0.63 福建 3 139.09 79.09 44.19 18.5 10.5 20.23 16.47 7.67 3.08 湖南 3 12
15、4 84.66 44.05 13.5 7.47 19.11 20.49 10.3 1.76 待广东 211.3 114 41.44 33.2 11.2 48.72 30.77 14.9 11.1 判 待西藏 175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0 判 1、对变量x1作如下计算:1)计算均值、方差、标准差、变异系数、偏度、峰度;2)计算中位数,上、下四分位 数,四分位极差,三均值;3)作出直方图;4)作出茎叶图;5)进行正态性检验(正态W检验);6)计算协方差矩阵,Pearson相关矩阵;7)计算Spearman相关矩阵;8)分析各指标间的
16、相关性。2、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。 3、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分3类的结果;2)快速聚类法聚类,并写出分3类的结果。4、1)求前两个标准化主成分及其累计贡献率;2)解释1)中两个主成分的意义;3)基于第一样本主成分的得分对各地区排序,这与你从原始数据得到的直观看法是否基本吻合, 【实验前的预备知识】 1、SAS系统的使用;2、1)数据的数字特征:均值、方差、中位数、三均值与极差等;2)数据的分布:直方图、茎叶图、箱线图、正态性检验等;3
17、)多元数据的数字特征与相关性分析:均值向量与协方差矩阵等。6 3、1)距离判别的原理及判别准则的评价;2)Bayes判别的原理;3)逐步判别;4、1)样品间的相似性度量距离和变量间的相似性度量相似系数;2)谱系聚类法:最短距离法、最长距离法、类平均法、重心法、中间距离法和WARD最小方差法等;3)快速聚类法:5、1)总体主成分的定义、求法、性质和标准化变量的主成分;2)样本主成分。1、1)PROC MEANS过程 PROC MEANS options;VAR variables;/指出数据集中要计算的变量名称(应是数值变量)/ OUTPUT OUT=SAS data set keyword=n
18、ame ; /建立一个由PROC MEANS过程的分析结果构成的SAS数据集/ 其中“options”包含下列内容的部分或全部:a. DATA=SAS data set:指明所要分析的SAS数据集名称.若省略此选项,则对最新建立的数据集作分析. b. MAXDEC=:其中为介于0与8之间的一个正整数,该选项指明在输出数据时小数kk点后保留位. kc. 关键词:逐个列出要计算其值的统计量名称的关键词,最常用的有N(变量的观测值个数)、MEAN(均值)、STD(标准差)、VAR(方差)、MIN(各变量观测值的最小值)、MAX(各变量观测值的最大值)、RANGE(极差)、SUM(总和)、USS(平方
19、和)、CSS(中心化平方和)、SKEWNESS(偏度)、KURTOSIS(峰度)、T(对每个变量的均值是否为零进行双p边t检验)、PRT(双边的值). 2)PROC UNIVARIATE 过程 PROC UNIVARIATE options;PLOT variable1;OUTPUT OUT=SAS data set keyword=name ;7 指明所要分析的SAS数据集名称. b. PLOT:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图.若某区间的观测值超过48,则不绘制茎叶图,而改绘水平直方图,在正态QQ图中,以“*”号标示正态QQ图上的点,以
20、“+”标示相应的参考直线. c. FREQ:要求生成包括变量值、频数、百分数和累计百分数的表. d. NORMAL:要求对分析的各变量的观测值是否来自正态分布总体做检验,并输出检验p的值. 3)PROC CORR 过程 PROC CORR options;WITH variables;b. PEARSON:要求输出Pearson相关系数矩阵(为默认输出结果). c. SPEARMAN:要求输出Spearman秩相关系数矩阵. d. COV:要求计算协方差矩阵. e. NOSIMPLE:指明不输出每个变量的简单描述性统计量的值. VAR variables:该语句指出要计算相关系数矩阵或协方差阵
21、的变量名称,可以是数据集中数值变量的一部分. WITH variables:此语句和“VAR variables”语句合用,可以得到变量间特殊组合的相关系数矩阵,即“VAR”后的各变量与“WITH”后的各变量间的相关系数矩阵。 2、判别分析过程 ? 分类判别 PROC DISCRIM options;CLASS variable;8 PRIORS probabilies;TESTCLASS variable (1)PROC DISCRIM options;此语句中,“options”部分可包含下列内容:1)待分析的数据集选择:DATA,SAS data set:指定用以建立判别函数的SAS数据
22、集(即训练样本数据集)(若省略此句,则最新建立的数据集被用于建立判别函数( TESTDATA:SAS data set:指定用以检验判别准则的SAS数据集名称,除分类变量外,该数据集中的变量应和训练样本数据集中的变量一致( 2)输出数据集的选择:OUTSTAT,SAS data set:定义一个输出SAS数据集名称,该数据集中包括原训练样本集中各变量的均值、标准差及相关系数等(若METHOD:NORMAL(见后)被使用,该数据集中还包括判别函数的系数( OUT,SAS data set:命名一个输出SAS数据集,其中包括训练样本集的数据及变量、后验概率及回判结果( OUTCROSS,SAS d
23、ata set:定义一个输出的SAS数据集,其中包括训练样本数据及变量、后验概率以及由交叉确认法所得的回判结果等( TESTOUT,SAS data set:定义一个输出的SAS数据集,其中包括检验数据集中的变量和数据、后验概率以及利用所建立的判别准则对检验数据集的判别结果(此项当“options”中有“TESTDATA:SAS data set”时运用( 3)判别分析方法的选择:METHOD,NORMAL(或NPAR):指出建立判别函数的方法(当“METHOD,NORMAL”被指定,则在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,并视各总体的协方差矩阵是否相等而分
24、别建立线性及二次判别函数;当指定“METHOD,NPAR”,则使用非参数方法建立判别函数(前者是SAS系统默认的方法( POOL,YES(或NO,TEST):在选择METHOD:NORMAL”的前提下,“POOL9 ,YES”意味着假定各总体的协方差矩阵相等,而用各训练样本的样本协方差矩阵联合估计公共的协方差矩阵,这时建立的判别函数是线性的;若选择 “POOL,NO”,则意味着假定各总体的协方差矩阵不等而建立二次判别函数;“POOL,TEST即要求首先利用修正的Bartlett似然比方法检验各总体的协方差矩阵是否相等,若检验结果在由语句“SLPOOL,p”(见后)所指定的显著水平p下显著,则建
25、立二次判别函数,否则利用联合协方差矩阵估计建立线性判别函数(对线性判别函数,输出结果中才给出判别函数的系数( SLPOOL,p:指定检验协方差矩阵是否相等的显著水平(只有当选择 “POOL,TEST时,才可出现此语句,若省去此语句,则SAS系统默认p:0(10, 4)回判结果输出选择:LIST:打印出每个样品的回判结果( LISTERR:仅打印出回判中判错的样品信息( NOCLASSIFY:不需要对训练样本数据作回判分析( 5)交叉确认法回判结果的输出选择:当下列语句出现时,则交叉确认法被使用对训练样本作回判分析( CROSSVALIDATE:要求对训练样本数据集进行交叉确认回判分析( CRO
26、SSLISTERR:仅打印出使用交叉确认法判别而判错的样品信息( CROSSLIST:打印出每个样品的交叉确认法回判分析结果( 6)检验数据集判别结果的输出选择 TESTLIST:列出对检验数据集的判别结果( TESTLISTERR:仅列出对检验数据集中判错的样品信息( 7)控制打印选择 WCORR;打印各总体(组内)的训练样本相关矩阵( PCORR:打印由各总体的样本相关矩阵所得的联合相关矩阵估计( 类似地,WCOV,PCOV则要求打印出相应于?、?的训练样本协方差矩阵估计( ALL:打印出所有的相关结果( SHORT:只打印一些主要结果, (2)CLASS variable;其中的“var
27、iable”即描述各类别的变量名称(该变量可以是数值化的变量,也可以10 是非数值变量(该语句是进行判别分析所必需的语句( (3)VAR variables;其中“variables”即列出参与分析的描述各样品特征的变量名称,省略时即数据集中所有的数值变量( (4)PRIORS probabilities;此语句的功能即指出总体的先验概率分布(其中的“probabilities”应是下列三种选择之一:1)EQUAL,即各总体的先验概率相等( 2)PROPORTIONAL(或PROP):即各总体的先验概率与各总体的训练样 GGG,nnn,本容量成比例,设有三个总体,训练样本容量分别为,则各总体的先123123nnn312nnnn,,验概率分布为这里。 qqq,123123nnn3)具体指定各总体的先验概率(通常有两种方式:若描述各总体类别的变量(即“CLASSvariable中的变量)是非数值变量,则在各类取值后给出先验概率并用等号连起来(例如,描述各总体类别的变量 “GRADE”取A,B,C,D四个值(每个值代表一类总体),各总体先验概率分布为0.1,0.3,0.5和0.1,则“PRIORS”语句为 PRIORS A,0.1 B,0.3 C,0.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1