数据分析的实验报告Word格式.docx

资源描述

数据分析的实验报告Word格式.docx

《数据分析的实验报告Word格式.docx》由会员分享，可在线阅读，更多相关《数据分析的实验报告Word格式.docx（16页珍藏版）》请在冰豆网上搜索。

数据分析的实验报告Word格式.docx

数值分析实验指导3）将下面Excel表格中的数据导入SAS数据集work.gnp;

x1x2x3x4x5x6name

北京190.3343.777.9360.5449.0190.4

天津135.236.410.4744.1636.493.94

河北95.2122.839.322.4422.812.8

山西104.7825.116.469.8918.173.25内蒙古128.4127.638.9412.5823.993.27

辽宁145.6832.8317.7927.2939.093.47

吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04

上海221.1138.6412.53115.6550.825.89

江苏144.9829.1211.6742.627.35.74

浙江169.9232.7521.7247.1234.355

安徽153.1123.0915.6223.5418.186.39

福建144.9221.2616.9619.5221.756.73

江西140.5421.5917.6419.1915.974.94

山东115.8430.7612.233.133.773.85

河南101.1823.268.4620.220.54.3

湖北140.6428.2612.3518.5320.956.23

湖南164.0224.7413.6322.218.066.04

广东182.5520.5218.3242.436.9711.68

广西139.0818.4714.6813.4120.663.85

四川137.820.7411.0717.7416.494.39

贵州121.6721.5312.5814.4912.184.57

云南124.2719.818.8914.2215.533.03

陕西106.0220.5610.9410.11183.29

甘肃95.6516.825.76.0312.364.49

青海107.1216.458.985.48.785.93

宁夏113.7424.116.469.6122.922.53

新疆123.243813.724.6417.775.75

4）使用VIEWTABLE格式新建数据集earn,输入如表所示数据Yearearn

1981125000

1982136000

1983122350

198465200

1985844600

1986255000

1987265000

1988280000

1989136000

3.将sasuser.score数据集的内容复制到一个临时数据集test,要求只包含变量name,sex,math。

4（将sasuser.score数据集中的记录按照math的高低拆分到3个不同的数据集:

math大于等于90的到good数据集，math在80到89之间的到normal数据集，math在80以下的到bad数据集。

5（将4题中得到的数据集good，normal，bad合并为数据集combine,并将数据集combine按照数学成绩排序，然后打印排序后的数据集。

【实验报告要求】1.写出2.1）2）3）,3,4,5的程序设计;

2.附上5题打印程序运行的结果。

【实验方法或步骤】

1（SAS系统的启动:

2种方法

1）双击桌面上的SAS快捷方式;

2）单击屏幕左下角的“开始”菜单，在菜单中选择“程序”，在程序中选择TheSAS

System，最后选择TheSASSystemforWindowsV8。

2（数据的输入与输出

1）在SAS程序窗口下，直接输入数据以建立一个SAS数据集，其基本语句形式为:

DATAname;

INPUTvariables;

CARDS;

datalines

;

输出数据集的内容，可用

PROCPRINTDATA=name;

2）将其他格式的数据文件导入数据集.

3（能够利用已有的SAS数据集建立新的SAS数据集

1）两个数据集的合并

两数据集的串接:

将A和B两个数据集串接成为一个名为“name”的新的SAS

数值分析实验指导数据集.

DATAname;

SETAB;

两数据集的并接:

若两个数据集的数据行数（即观测向量个数）相同且按相同顺

序排列，可将两数据集并接以形成新的SAS数据集，其中数据集中变量的个数为原两

数据集中的变量个数之和.

MERGEAB;

2）两个数据集的复制

DATAA;

/A为新的数据集/

SETB;

/B为要复制的数据集名/

KEEPvariables;

/希望保留的变量名/

DROPvariables;

/希望去掉的变量名/

3）两个数据集的拆分

示例:

将记录学生成绩的//数据集按性别分成两个数据集，即一个记录男生的成绩，

一个记录女生的成绩。

程序如下:

Datascoremscoref;

Setsasuser.score;

Select（sex）;

When（‘m’）outputscorem;

When（‘f’）outputscoref;

End;

Run;

实验二1991年全国各省、区、市城镇居民

月平均收入的数据分析

（综合性）

【实验学时】6学时

【实验目的】通过对1991年全国各省、区、市城镇居民月平均收入进行数据描述性分析、判别分析、聚类分析和主成分分析，培养和提高学生应用统计软件SAS分析处理数据的能力，为以后的学习及应用打下良好的基础。

【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表，变量含义如下:

X1-人均生活费收入（元/人）;

X2-人均全民所有制职工工资（元/人）;

X3-人均来源于全民标准工资（元/人）;

X4-人均集体所有制工资（元/人）;

X5-人均集体职工标准工资（元/人）;

X6-人均各种奖金及超额工资（元/人）;

X7-人均各种津贴（元/人）;

X8-职工人均

从工作单位得到的其他收入（元/人）;

X9-个体劳动者收入（元/人）。

省（区\市）类x1x2x3x4x5x6x7x8x9名型

北京1170.03110.259.768.384.4926.816.4411.90.41

天津1141.5582.5850.9813.49.3321.312.369.211.05

河北1119.483.3353.39117.5217.311.79120.7

上海1194.53107.860.2415.68.883121.0111.80.16

山东1130.4686.2152.315.910.520.6112.149.610.47

湖北1119.2985.4153.0213.18.4413.8716.478.380.51

广西1134.4698.6148.188.94.3421.4926.1213.64.56

海南1143.7999.9745.66.31.5618.6729.4911.83.82

四川1128.0574.9650.1313.99.6216.1410.1814.51021

云南1127.4193.5450.5710.55.8719.4121.212.60.9

新疆1122.96101.469.76.33.8611.318.965.624.62

山西2102.4971.7247.729.426.9613.127.96.660.61内蒙古2106.1476.2746.199.656.279.65520.16.970.96

吉林2104.9372.9944.613.79.019.43520.616.651.68黑龙江2103.3462.9942.9511.17.418.34210.196.452.68

江西298.08969.4543.0411.47.9510.5916.57.691.08

河南2104.1272.2347.319.486.4313.1410.438.31.11

贵州2108.4980.7947.526.063.4213.6916.538.372.85

陕西2113.9975.650.885.213.8612.949.4926.771.27

甘肃2114.0684.3152.787.815.4410.8216.433.791.19

青海2108.880.4150.457.274.078.37118.985.950.83

宁夏2115.9688.2151.858.815.6313.9522.654.750.97

辽宁3128.4668.9143.4122.415.313.8812.429.011.41

江苏3135.2473.1844.5423.915.222.389.66113.91.19

浙江3162.5380.1145.9924.313.929.5410.9133.47

安徽3111.7771.0743.6419.412.516.689.6987.020.63

福建3139.0979.0944.1918.510.520.2316.477.673.08

湖南312484.6644.0513.57.4719.1120.4910.31.76

待广东211.311441.4433.211.248.7230.7714.911.1判

待西藏175.93163.857.894.223.3717.8182.3215.70判

1、对变量x1作如下计算:

1）计算均值、方差、标准差、变异系数、偏度、峰度;

2）计算中位数，上、下四分位数，四分位极差，三均值;

3）作出直方图;

4）作出茎叶图;

5）进行正态性检验（正态W检验）;

6）计算协方差矩阵，Pearson相关矩阵;

7）计算Spearman相关矩阵;

8）分析各指标间的相关性。

2、1）判定广东、西藏两省区属于哪种收入类型，并用回代法及交叉确认法对误判率作出估计。

2）进行Bayes判别，并用回代法与交叉确认法验证判别结果。

3、1）用最短距离法、最长距离法与类平均法聚类，画出谱系图，并写出分3类的结果;

2）快速聚类法聚类，并写出分3类的结果。

4、1）求前两个标准化主成分及其累计贡献率;

2）解释1）中两个主成分的意义;

3）基于第一样本主成分的得分对各地区排序，这与你从原始数据得到的直观看法是

否基本吻合,

【实验前的预备知识】

1、SAS系统的使用;

2、1）数据的数字特征:

均值、方差、中位数、三均值与极差等;

2）数据的分布:

直方图、茎叶图、箱线图、正态性检验等;

3）多元数据的数字特征与相关性分析:

均值向量与协方差矩阵等。

3、1）距离判别的原理及判别准则的评价;

2）Bayes判别的原理;

3）逐步判别;

4、1）样品间的相似性度量——距离和变量间的相似性度量——相似系数;

2）谱系聚类法:

最短距离法、最长距离法、类平均法、重心法、中间距离法和WARD最小方差法等;

3）快速聚类法:

5、1）总体主成分的定义、求法、性质和标准化变量的主成分;

2）样本主成分。

1、1）PROCMEANS过程

PROCMEANSoptions;

VARvariables;

/指出数据集中要计算的变量名称（应是数值变量）/

OUTPUTOUT=SASdatasetkeyword=name„;

/建立一个由PROCMEANS过程的分析结果构成的SAS数据集/

其中“options”包含下列内容的部分或全部:

a.DATA=SASdataset:

指明所要分析的SAS数据集名称.若省略此选项,则对最新建立的

数据集作分析.

b.MAXDEC=:

其中为介于0与8之间的一个正整数,该选项指明在输出数据时小数kk

点后保留位.k

c.关键词:

逐个列出要计算其值的统计量名称的关键词,最常用的有N（变量的观测值个

数）、MEAN（均值）、STD（标准差）、VAR（方差）、MIN（各变量观测值的最小值）、MAX（各

变量观测值的最大值）、RANGE（极差）、SUM（总和）、USS（平方和）、CSS（中心化平

方和）、SKEWNESS（偏度）、KURTOSIS（峰度）、T（对每个变量的均值是否为零进行双

p边t检验）、PRT（双边的值）.

2）PROCUNIVARIATE过程

PROCUNIVARIATEoptions;

PLOTvariable1;

OUTPUTOUT=SASdatasetkeyword=name;

指明所要分析的SAS数据集名称.

b.PLOT:

要求对所分析的各变量的观测值产生一个茎叶图（或水平直方图）、一个箱线

图和一个正态QQ图.若某区间的观测值超过48，则不绘制茎叶图，而改绘水平直方

图，在正态QQ图中，以“*”号标示正态QQ图上的点，以“+”标示相应的参考

直线.

c.FREQ:

要求生成包括变量值、频数、百分数和累计百分数的表.d.NORMAL:

要求对分析的各变量的观测值是否来自正态分布总体做检验,并输出检验

p的值.

3）PROCCORR过程

PROCCORRoptions;

WITHvariables;

b.PEARSON:

要求输出Pearson相关系数矩阵（为默认输出结果）.c.SPEARMAN:

要求输出Spearman秩相关系数矩阵.

d.COV:

要求计算协方差矩阵.

e.NOSIMPLE:

指明不输出每个变量的简单描述性统计量的值.

VARvariables:

该语句指出要计算相关系数矩阵或协方差阵的变量名称，可以是数据集中数值变量的一部分.

WITHvariables:

此语句和“VARvariables”语句合用，可以得到变量间特殊组合的相关系数矩阵，即“VAR”后的各变量与“WITH”后的各变量间的相关系数矩阵。

2、判别分析过程

分类判别

PROCDISCRIMoptions;

CLASSvariable;

PRIORSprobabilies;

TESTCLASSvariable

（1）PROCDISCRIMoptions;

此语句中，“options”部分可包含下列内容:

1）待分析的数据集选择:

DATA,SASdataset:

指定用以建立判别函数的SAS数据集（即训练样本数据集）（若省略此句，则最新建立的数据集被用于建立判别函数（

TESTDATA:

SASdataset:

指定用以检验判别准则的SAS数据集名称，除分类变量外，该数据集中的变量应和训练样本数据集中的变量一致（

2）输出数据集的选择:

OUTSTAT,SASdataset:

定义一个输出SAS数据集名称，该数据集中包括原训练样本集中各变量的均值、标准差及相关系数等（若METHOD:

NORMAL（见后）被使用，该数据集中还包括判别函数的系数（

OUT,SASdataset:

命名一个输出SAS数据集，其中包括训练样本集的数据及变量、后验概率及回判结果（

OUTCROSS,SASdataset:

定义一个输出的SAS数据集，其中包括训练样本数据及变量、后验概率以及由交叉确认法所得的回判结果等（

TESTOUT,SASdataset:

定义一个输出的SAS数据集，其中包括检验数据集中的变量和数据、后验概率以及利用所建立的判别准则对检验数据集的判别结果（此项当“options”中有“TESTDATA:

SASdataset”时运用（

3）判别分析方法的选择:

METHOD,NORMAL（或NPAR）:

指出建立判别函数的方法（当“METHOD,NORMAL”被指定，则在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵，并视各总体的协方差矩阵是否相等而分别建立线性及二次判别函数;

当指定“METHOD,NPAR”，则使用非参数方法建立判别函数（前者是SAS系统默认的方法（

POOL,YES（或NO，TEST）:

在选择"

METHOD:

NORMAL”的前提下，“POOL

YES”意味着假定各总体的协方差矩阵相等，而用各训练样本的样本协方差矩阵联合估计公共的协方差矩阵，这时建立的判别函数是线性的;

若选择“POOL,NO”，则意味着假定各总体的协方差矩阵不等而建立二次判别函数;

“POOL,TEST"

即要求首先利用修正的Bartlett似然比方法检验各总体的协方差矩阵是否相等，若检验结果在由语句“SLPOOL,p”（见后）所指定的显著水平p下显著，则建立二次判别函数，否则利用联合协方差矩阵估计建立线性判别函数（对线性判别函数，输出结果中才给出判别函数的系数（

SLPOOL,p:

指定检验协方差矩阵是否相等的显著水平（只有当选择“POOL,TEST"

时，才可出现此语句，若省去此语句，则SAS系统默认p:

0（10，

4）回判结果输出选择:

LIST:

打印出每个样品的回判结果（

LISTERR:

仅打印出回判中判错的样品信息（

NOCLASSIFY:

不需要对训练样本数据作回判分析（

5）交叉确认法回判结果的输出选择:

当下列语句出现时，则交叉确认法被使用对训练样本作回判分析（

CROSSVALIDATE:

要求对训练样本数据集进行交叉确认回判分析（

CROSSLISTERR:

仅打印出使用交叉确认法判别而判错的样品信息（

CROSSLIST:

打印出每个样品的交叉确认法回判分析结果（

6）检验数据集判别结果的输出选择

TESTLIST:

列出对检验数据集的判别结果（

TESTLISTERR:

仅列出对检验数据集中判错的样品信息（

7）控制打印选择

WCORR;

打印各总体（组内）的训练样本相关矩阵（

PCORR:

打印由各总体的样本相关矩阵所得的联合相关矩阵估计（

类似地，WCOV，PCOV则要求打印出相应于?

、?

的训练样本协方差矩阵估计（

ALL:

打印出所有的相关结果（

SHORT:

只打印一些主要结果，

（2）CLASSvariable;

其中的“variable”即描述各类别的变量名称（该变量可以是数值化的变量，也可以

是非数值变量（该语句是进行判别分析所必需的语句（

（3）VARvariables;

其中“variables”即列出参与分析的描述各样品特征的变量名称，省略时即数据集中所有的数值变量（

（4）PRIORSprobabilities;

此语句的功能即指出总体的先验概率分布（其中的“probabilities”应是下列三种选择之一:

1）EQUAL，即各总体的先验概率相等（

2）PROPORTIONAL（或PROP）:

即各总体的先验概率与各总体的训练样

GGG,,nnn,,本容量成比例，设有三个总体，训练样本容量分别为，则各总体的先123123

nnn312nnnn,，，验概率分布为这里。

qqq,,,,,,123123nnn

3）具体指定各总体的先验概率（通常有两种方式:

若描述各总体类别的变量（即“CLASSvariable"

中的变量）是非数值变量，则在各类取值后给出先验概率并用等号连起来（例如，描述各总体类别的变量“GRADE”取A，B，C，D四个值（每个值代表一类总体），各总体先验概率分布为0.1，0.3，0.5和0.1，则“PRIORS”语句为

PRIORSA,0.1B,0.3C,0.

展开阅读全文