ImageVerifierCode 换一换
格式:DOCX , 页数:46 ,大小:644.16KB ,
资源ID:11203454      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/11203454.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据分析实验报告1408024111张冉.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据分析实验报告1408024111张冉.docx

1、数据分析实验报告1408024111张冉 实验课程: 数据分析 专 业: 信息与计算科学 班 级: 14080241 学 号: * *中北大学理学院实验一 SAS系统的使用【实验目的】使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。【实验内容】1. 将SCORE数据集的内容复制到一个临时数据集test。 SCORE数据集NameSexMathChineseEnglishAlicef908591Tomm958784Jennyf939083Mikem808580Fredm848589Katef978382Alexm929091Cookm757876Bennief827984

2、Hellenf857484Winceletf908287Buttm778179Geogem868582Todm898484Chrisf898487Janetf8665872将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。3将2题中得到的good,normal,bad数据集合并。【实验所使用的仪器设备与软件平台】台式电脑,SAS软件【实验方法与步骤】1.将SCORE数据集的内容复制到一个临时数据集test程序:DATA score;input Name

3、$ Sex $ Math Chinese English;Cards;Alice f 90 85 91Tom m 95 87 84Jenny f 93 90 83Mike m 80 85 80Fred m 84 85 89Kate f 97 83 82Alex m 92 90 91Cook m 75 78 76Bennie f 82 79 84Hellen f 90 82 87Wincelet f 90 82 87Butt m 77 81 79Geoge m 86 85 82Tod m 89 84 84Chris f 89 84 87Janet f 86 65 87;run;PROC PRIN

4、T DATA=socre;实验结果:2、将SCORE数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,math在80到89之间的到normal数据集,math在80以下的到bad数据集。程序:data text;set socre;DATA good normal bad;set socre;select;when(math=90) output good;when(math=80&math90) output normal;when(math80) output bad;end;run;proc print data=good;proc prin

5、t data=normal;proc print data=bad;data all;set good normal bad;proc print data=all;run;实验结果:(1)math大于等于90的到good数据集:(2)math在80到89之间的到normal数据集:(3)math在80以下的到bad数据集:实验二 上市公司的数据分析【实验目的】通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(

6、price). 表2 某上市公司的数据表代码流通盘每股收益股票价格00009685000.05913.2700009960000.02814.200015012600-0.0037.12000151105000.02610.0800015325000.05622.7500015513000-0.0096.8500015636000.03314.95000157100000.0612.65000158100000.0188.3800015970000.00812.15000301153650.047.3100048877000.10113.2600072560000.04412.33000835

7、13380.0722.5800086932000.19418.290008777800-0.08412.550008856000-0.07312.48000890169340.0319.12000892120000.0317.88000897141660.0026.91000900214230.0588.5900090148000.00527.950009026500-0.03110.9200090360000.10911.7900090595000.0469.2900090666500.00714.4700090889880.0068.2800090960000.0029.990009108

8、0000.0368.900091172800.0679.01000912150000.1128.0600091384500.06211.8600091545990.00114.4000916340000.0385.15000917118000.08616.230009186000-0.04510.121、对股票价格1)计算均值、方差、标准差、变异系数、偏度、峰度;2)计算中位数,上、下四分位 数,四分位极差,三均值;3)作出直方图;4)作出茎叶图;5)进行正态性检验(正态W检验);6)计算协方差矩阵,Pearson相关矩阵;7)计算Spearman相关矩阵;8)分析各指标间的相关性。2、1)对

9、股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差; 2)给定显著性水平=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性; 3)拟合残差关于拟合值的残差图及残差的正态QQ图。分析这些残差,并予以评述。【实验结果】1.程序:data price;input x ;cards;13.27 14.2 7.12 10.08 22.75 6.8514.95 12.65 8.38 12.15 7.31 13.2612.33 22.58 18.29 12.55 12.48 9.127.88 6.91 8.59 27.95 10.92 11.79 9.29 14.47

10、8.28 9.99 8.9 9.01 8.06 11.86 14.4 5.15 16.23 10.12;proc print data=price;run;proc means mean var std cv skewness kurtosis;var x;run;proc univariate plot normal;run;proc capability graphics;histogram x/normal;run;结果:1)均值、方差、标准差、变异系数、偏度、峰度如图所示:;方差较大可看出样本数据值比较分散偏度为正可得出样本总体分布是在右侧更为扩展的峰度为正可得出样本总体分布中极端数值

11、分布范围较广。2)计算中位数,上、下四分位 数,四分位极差,三均值由proc univariate过程得:从图中可知:中位数:M=11.355上四分位数:Q3=13.735下四分位数:Q1=8.485四分位极差:5.25000三均值:1/4(下四分位数)+1/2(中位数)+1/4(上四分位数)=11.2323)作出直方图由proc capability过程得:从图中可以看出数据偏右。从直方图上很难鉴别样本是否近似与某种类型的分布。4)作出茎叶图;从图中可以看出,绝大部分数据集中在之间,在之间形成一个高峰。没有和之间的数据,有一个异常数据为280.5)进行正态性检验(正态W检验);有proc u

12、niwariate过程,算得:W=0.872266P值为:6)计算协方差矩阵,Pearson相关矩阵;程序:data a1;input eps scale price;cards;8500 0.059 13.276000 0.028 14.212600 -0.003 7.1210500 0.026 10.082500 0.056 22.7513000 -0.009 6.853600 0.033 14.9510000 0.06 12.6510000 0.018 8.387000 0.008 12.1515365 0.04 7.317700 0.101 13.266000 0.044 12.331

13、338 0.07 22.583200 0.194 18.297800 -0.084 12.556000 -0.073 12.4816934 0.031 9.1212000 0.031 7.8814166 0.002 6.9121423 0.058 8.594800 0.005 27.956500 -0.031 10.926000 0.109 11.799500 0.046 9.296650 0.007 14.478988 0.006 8.286000 0.002 9.998000 0.036 8.97280 0.067 9.0115000 0.112 8.068450 0.062 11.864

14、599 0.001 14.434000 0.038 5.1511800 0.086 16.236000 -0.045 10.12;proc corr data=a1 cov peardon spearman;var eps scale price;with eps scale price;run;结果:由proc corr过程得:7)Spearman相关矩阵;8)分析各指标间的相关性均值 方差 标准差: 变异系数: 峰度: 偏度: 2、程序:data hzp;input x1 x2 y;cards;8500 0.059 13.276000 0.028 14.212600 -0.003 7.12

15、10500 0.026 10.082500 0.056 22.7513000 -0.009 6.853600 0.033 14.9510000 0.06 12.6510000 0.018 8.387000 0.008 12.1515365 0.04 7.317700 0.101 13.266000 0.044 12.331338 0.07 22.583200 0.194 18.297800 -0.084 12.556000 -0.073 12.4816934 0.031 9.1212000 0.031 7.8814166 0.002 6.9121423 0.058 8.594800 0.005

16、 27.956500 -0.031 10.926000 0.109 11.799500 0.046 9.296650 0.007 14.478988 0.006 8.286000 0.002 9.998000 0.036 8.97280 0.067 9.0115000 0.112 8.068450 0.062 11.864599 0.001 14.434000 0.038 5.1511800 0.086 16.236000 -0.045 10.12;proc print;run;proc reg data=hzp;model y=x1 x2;output out=a p=p r=r stude

17、nt=stdr;proc print data=a;run;proc gplot data=a;plot x1*r=1 x2*r=2 y*r=3;run;proc capability data=a graphics;qqplot r/normal;run;1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;设Y与X1,X2,X3的观测值之间满足关系:其中相互独立,均服从正态分布方差分析输出结果:参数估计输出结果:其中r为残差。2)给定显著性水平=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;1. 流通盘(scale) 拒绝原假设认为股票价格(p

18、rice)与流通盘(scale)之间存在显著的显著回归关系2.每股收益(eps)拒绝原假设认为股票价格(price)与每股收益(eps)之间存在显著的显著回归关系3)拟合残差关于拟合值的残差图及残差的正态QQ图。分析这些残差,并予以评述。拟合值的残差图:残差的正态QQ图: 从图中可以得出:1正态QQ图中散点图是弯曲的,在一条直线的下方,可认为数据不是来自正态分布总体,且样本的偏度为正。2残差图中出现4个或者4个以上的*好的那些点所对应的学生化残差的绝对值大于2,被认为是残差较大的可疑点。如果这些点所占的比例较大,则表明模型模拟的不合适。实验三美国50个州七种犯罪比率的数据分析【实验目的】通过使

19、用SAS软件对实验数据进行主成分分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】表3给出的是美国50个州每100 000个人中七种犯罪的比率数据。这七种犯罪是:Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。表3 美国50个州七种犯罪的比率数据StateMurderRapeRobberyAssaultBurglaryLarcenyAutoAlabama14.225.296.8278.31135.51881.9280.7Alaska10.851.69

20、6.8284.01331.73369.8753.3Arizona9.534.2138.2312.32346.14467.4439.5Arkansas8.827.683.2203.4972.61862.1183.4California11.549.4287.0358.02139.43499.8663.5Colorado6.342.0170.7292.91935.23903.2477.1Connecticut4.216.8129.5131.81346.02620.7593.2Delaware6.024.9157.0194.21682.63678.4467.0Florida10.239.6187.9

21、449.11859.93840.5351.4Georgia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.5128.064.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois9.921.8211.3209.01085.02828.5528.6Indiana7.426.5123.2153.51086.22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622.0100.7180.51270.42739.3244.3K

22、entucky10.119.181.1123.3872.21662.1245.4Louisiana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.7170.01253.12350.7246.9Maryland8.034.8292.1358.91400.03177.7428.5Massachusetts3.120.8169.1231.61532.22311.31140.1Michigan9.338.9261.9274.61522.73159.0545.5Minnesota2.719.585.985.81134.72559.3343.1Missi

23、ssippi14.319.665.7189.1915.61239.9144.4Missouri9.628.3189.0233.51318.32424.2378.4Montana5.416.739.2156.8804.92773.2309.2Nebraska3.918.164.7112.7760.02316.1249.1Nevada15.849.1323.1355.02453.14212.6559.2New Hampshire3.210.723.276.01041.72343.9293.4New Jersey5.621.0180.4185.11435.82774.5511.5New Mexico

24、8.839.1109.6343.41418.73008.6259.5New York10.729.4472.6319.11728.02782.0745.8North Carolina10.617.061.3318.31154.12037.8192.1Ohio7.827.3190.5181.11216.02696.8400.4North Dakota0.99.013.343.8446.11843.0144.7Oklahoma8.629.273.8205.01288.22228.1326.8Oregon4.939.9124.1286.91636.435061388.9Pennsylvania5.6

25、19.0130.3128.0877.51624.1333.2Rhode Island3.610.586.5201.01489.52844.1791.4South Carolina11.933.0105.9485.31613.62342.4245.1South Dakota2.013.517.9155.7570.51704.4147.5Tennessee10.129.7145.8203.91259.71776.5314.0Texas13.333.8152.4208.21603.12988.7397.6Utah3.520.368.8147.31171.63004.6334.5Vermont1.41

26、5.930.8101.21348.22201.0265.2Virginia9.023.392.1165.7986.22521.2226.7Washington4.339.6106.2224.81605.63386.9360.3West Virginia6.013.242.290.9597.41341.7163.3Wisconsin2.812.952.263.7846.92614.2220.7Wyoming5.421.939.7173.9811.62772.2282.01、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异? 2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。 3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。2、从样本相关矩阵出发,做因子分析。【实验结果及分析】1.程序:data a;input State$ Murder Rape Robbery Assault Burglary Larceny Auto;cards;Alabama 14.2 25.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1