1、数据分析实验报告表分析解析实验课程: 数据分析专 业: 信息与计算科学班 级:学 号:姓 名:中北大学理学院. .实验一 SAS 系统的使用【实验目的】了解 SAS系统,熟练掌握 SAS数据集的建立及一些必要的 SAS语句。【实验内容】1. 将 SCORE数据集的内容复制到一个临时数据集 test 。SCORE数据集NameSexMathChineseEnglishAlicef908591Tomm958784Jennyf939083Mikem808580Fredm848589Katef978382Alexm929091Cookm757876Bennief827984Hellenf857484W
2、incelet f908287Buttm778179Geogem868582Todm898484word 教育资料. .Chrisf898487Janetf8665872将 SCORE数据集中的记录按照math 的上下拆分到3 个不同的数据集: math大于等于 90 的到 good 数据集, math 在 80 到 89 之间的到 normal 数据集, math在 80 以下的到 bad 数据集。3将 3 题中得到的 good, normal ,bad 数据集合并。【实验所使用的仪器设备与软件平台】 SAS【实验方法与步骤】1:DATA SCORE;INPUT NAME $ Sex $ M
3、ath Chinese English;CARDS;Alicef908591Tom m958784Jennyf939083Mikem808580Fredm848589Katef978382Alexm929091Cookm757876Bennief827984Hellenf857484Wincelet f908287Buttm778179Geogem868582Tod m898484Chrisf898487Janetf866587;Run;PROC PRINT DATA=SCORE;DATA test;SET SCORE;2:DATAgood normal bad;SET SCORE;word
4、教育资料. .SELECT;when(math= 90) output good;when(math= 80&math90) output normal;when(math 80) output bad;end;Run;PROCPRINT DATA=good;PROCPRINT DATA=normal;PROCPRINT DATA=bad;3:DATAAll;SET good normal bad;PROCPRINT DATA=All;Run;【实验结果】结果一:结果二:word 教育资料. .结果三:word 教育资料. .word 教育资料. .实验二 上市公司的数据分析【实验目的】 通过
5、使用 SAS软件对实验数据进行描述性分析和回归分析, 熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】表 2 是一组上市公司在2001 年的每股收益 eps、流通盘 (scale)的规模以及 2001 年最后一个交易日的收盘价 (price).表 2某上市公司的数据表代码流通盘每股收益股票价格000096850000009960000001501260000015110500000153250000015513000000156360000015710000000158100000001597000000301153650004887700000725600000083513
6、3800086932000008777800000885600000089016934000892120000008971416600090021423000901480000090265000009036000000905950000090666500009088988000909600000091080000009117280000912150000009138450000915459900091634000000917118000009186000word 教育资料. .1、对股票价格1计算均值、方差、标准差、变异系数、偏度、峰度;2计算中位数,上、下四分位 数,四分位极差,三均值;3作
7、出直方图;4作出茎叶图;5进行正态性检验正态 W检验;6计算协方差矩阵, Pearson 相关矩阵;7计算 Spearman相关矩阵;8分析各指标间的相关性。2、1对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;2给定显著性水平 =0.05 ,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;3 拟合残差关于拟合值?, X 2 及X1 X 2的残差图及残差的正态QQ图。分析Y, X1这些残差,并予以评述。【实验所使用的仪器设备与软件平台】 SAS【实验方法与步骤】dataprices;inputnum scale eps price;cards ;000096
8、0000990001501260000015110500word 教育资料. .0001532500 0.056000155130000001563600 0.03300015710000000158100000001597000 0.008000301153650004887700 0.1010007256000 0.0440008351338 00008693200 0.1940008777800 -0008856000 -000890169340008921200000089714166000900214230009014800 0.0050009026500 -0009036000 0
9、.1090009059500 0.0460009066650 0.0070009088988 0.0060009096000 0.0020009108000 0.0360009117280 0.067000912150000009138450 0.0620009154599 0.00100091634000000917118000009186000 -run ;PROCPRINT DATA=prices;run ;procmeans data =pricesmean varstdskewnesskurtosiscv ;varprice;outputout =result;run ;procun
10、ivariatedata =prices plotfreqnormal ;varprice;outputout =result2;run ;proccapabilitydata =prices graphicsnoprint;word 教育资料. .histogramprice/ normal ;run ;proccorrdata =pricespearsonspearman cov nosimple;varprice;withprice;run ;procregdata =prices;model price=scale eps/selection=backward noint p r;ou
11、tput out =prices p=pr =r;procprintdata =prices;run【实验结果】word 教育资料. .word 教育资料. .word 教育资料. .对于问题二结果:word 教育资料. .word 教育资料. .word 教育资料. .实验三 美国 50 个州七种犯罪比率的数据分析【实验目的】 通过使用 SAS软件对实验数据进行主成分分析和因子分析, 熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】 表 3 给出的是美国 50 个州每 100 000 个人中七种犯罪的比率数据。这七种犯罪是: Murder杀人罪,Rape强奸罪,Robber
12、y抢劫罪,Assault斗殴罪, Burglary 夜盗罪,Larceny 偷盗罪, Auto汽车犯罪。表 3美国 50个州七种犯罪的比率数据StateMurderRapeRobberyAssaultBurglaryLarcenyAutoAlabamaAlaskaArizonaArkansasCaliforniaColoradoConnecticutDelawareFloridaGeorgiaHawaiiIdahoIllinoisIndianaIowaKansasKentuckyLouisianaMaineMarylandMassachusettsMichiganMinnesotaMissis
13、sippiMissouriMontanaNebraskaNevadaNew HampshireNew Jerseyword 教育资料. .New MexicoNew YorkNorth CarolinaOhioNorth DakotaOklahomaOregon35061PennsylvaniaRhode IslandSouth CarolinaSouth DakotaTennesseeTexasUtahVermontVirginiaWashingtonWest VirginiaWisconsinWyoming1、1分别用样本协方差矩阵和样本相关矩阵作主成分分析, 二者的结果有何差异?2 原始
14、数据的变化可否由三个或者更少的主成分反映, 对所选取的主成分给出合理的解释。3 计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序 .2、从样本相关矩阵出发,做因子分析。【实验所使用的仪器设备与软件平台】 SAS【实验方法与步骤】首先将上述数据复制到 excel, 再通过 SAS导入数据至数据集 crime 。样本协方差矩阵做主成分分析:proc princomp covariance ;run ;样本相关矩阵做主成分分析:proc princomp data =work.crime;run;对第一样本主成分排序word 教育资料. .proc princomp data =crime
15、 out =defen;run ;proc sort data =defen;by prin1;run ;proc print data =defen;run ;2、程序:proc factor score ;run ;【实验结果】word 教育资料. .word 教育资料. .word 教育资料. .word 教育资料. .word 教育资料. .实验四 1991 年全国各省、区、市城镇居民月平均收入的数据分析【实验目的】 通过使用 SAS软件对实验数据进行判别分析和聚类分析, 熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】 1991 年全国各省、区、市城镇居民月平均收入
16、情况见下表,变量含义如下: X1-人均生活费收入元 / 人;X2-人均全民所有制职工工资元 /人;X3-人均来源于全民标准工资元 / 人;X4-人均集体所有制工资元 / 人;X5-人均集体职工标准工资 元 / 人;X6-人均各种奖金及超额工资 元 / 人;X7-人均各种津贴元 / 人;X8-职工人均从工作单位得到的其他收入元/ 人;X9-个体劳动者收入元 / 人。省( 区 市 )类x1x2x3x4x5x6x7x8x9名型北京1天津1河北11112上海131山东1湖北1广西1海南1四川11021云南1新疆1山西2内蒙古2吉林2黑龙江2江西2河南2贵州2陕西2甘肃2青海2宁夏2word 教育资料.
17、 .辽宁3江苏3浙江313安徽3福建3湖南3124广东待114判西藏待0判1、1判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。2进行 Bayes 判别,并用回代法与交叉确认法验证判别结果。2、1用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分 3类的结果;2 快速聚类法聚类,并写出分 3 类的结果。【实验所使用的仪器设备与软件平台】 SAS【实验方法与步骤】1:发现数据四川省 X9数据存在异常 , 通过查阅课本 170 页表 5.3 可得此处数据应为 1.21.首先将上述数据建立 excel 表格,再通过 SAS直接导入到名为 shuju 的数据集中
18、。将数据省( 区x1x2x3x4x5x6x7x8x9市 ) 名广东114西藏0导入 daipang 数据集。 shuju 数据集删除最后两行 运行以下程序proc discrim data =shujutestdata =daipang method =normallist crosslist testlist ;class leixing;var x1-x9;word 教育资料. .run ;2:将上述结果也导入至数据集 SHUJU中SINGLE(或 SIN): 最短距离法 .proc cluster data =shuju method=sin outtree =y1;run ;proc tree data =y1 nclusters =3 out =z1;run ;proc print data =z1;run ;COMPLETE(或 COM): 最长距离法 .p
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1