ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:106.07KB ,
资源ID:5043088      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5043088.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SAS讲义第二十课散布图折线图和层次图.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

SAS讲义第二十课散布图折线图和层次图.docx

1、SAS讲义第二十课散布图折线图和层次图第二十课 散布图、折线图和层次图SAS系统中绘制散布图、折线图和层次图,使用PROC PLOT过程和PROC GPLOT过程。PROC PLOT过程是用来画易生成的低分辩率的图形,输出在OUTPUT窗口。而PROC GPLOT过程是用来生成定制的、高分辨率的图形,输出在GRAPH窗口,并且还可以对输出的图形进行编辑修改。一. PROC PLOT过程使用PLOT过程可以在两个不同的坐标系中对两个变量作散布图、折线图、半对数图和层次图。用于数据处理中,直观地了解数据的变化趋势和数据间的相互关系等。它的一般形式为:Proc Plot DATA=数据集 ;Plot

2、 纵坐标变量Y*横坐标变量X;Run ; 1 PROC PLOT语句PROC PLOT语句中的选项列表主要分成三类:有关图形的坐标轴选项、有关外观的选项和有关图形大小的选项。其中图形大小的两个选项较为常用: VPCT=百分比列表规定产生图形在垂直方向占一页的百分比。例如VPCT=33表示这张输出图占一页的33%,即占一页的1/3,所以一页可以纵向打印3张图。VPCT=50 25 25表示每一页在纵向打印3张图,第一张占全页的一半,第二和第三张各占1/4页。VPCT=200表示要求输出图占2页的长度。 HPCT=百分比列表规定产生图形在水平方向占一页的百分比。2 PLOT语句PLOT语句里首先要

3、规定数据集中的哪两个变量作为图形中的垂直变量和水平变量,以及在图形中用于画点的作图字符。PLOT语句的几种使用格式如下:plot y*x ;plot y*x =+;plot y*x=符号变量 ;plot y*x $ 标记变量 =+;plot y*x=+ b*a=* /overlay ;第一条语句作图符号用缺省形式,依此用英文大写字母A、B、CZ作为作图符号。当观测的条数较多时,低分辩率图不可能画出所有观测的点,所以当图中的某一点表示有一条观测的点时,用作图符号A;当图中的某一点表示有二条观测的点时,用作图符号B;以此类推。例如,输出图中有一个Z符号,表示在这点上共有26条观测的点或更多点。对于

4、PROC GPLOT过程默认的作图符号为加号(+)。第二条语句用等号(=)规定一个字符作为作图符号。此例中每个散点用加号(+)表示。第三条语句用等号(=)规定一个变量的值作为作图符号,变量可以是字符变量,也可以是数值变量。此时,每个散点的作图符号用数据集中同一条观测的这个符号变量的值表示。例如,假定为=SEX变量,则作图符号为SEX变量的值F或M。第四条语句用符号($)规定一个变量的值用于标记图中的散点。此例中每个散点不仅用加号(+)表示,而且还标出了图中每一个散点在数据集的同一条观测中这个标记变量的值。第五条语句规定在同一张图上重叠两个图,当然可以重叠更多的图。OVERLAY选项要求定义在P

5、LOT语句中的几个图打印在一张图上。例如,我们有一个上证指数周线数据集INDEXSH,包含日期变量DATE、成交量变量VOLUME、开盘价变量OPEN、最高价变量HIGH、最低价变量LOW、收盘价变量CLOSE和涨跌百分比CHANGE,用PROC PLOT过程定制一个指数对交易周的最高和最低价的重叠散点图。程序如下:Libname Study “D:/Sasdata/Mydir”;Proc Plot Data=Study.IndexSh Vpct=50 Hpct=70 Formchar=|-|- ;Where date01feb91 d ;Plot high*date=+ low*date $

6、low =- /overlay ;Run ;程序的运行结果显示在OUTPUT窗口中,见图201所示(为显示清晰起见,窗口的大小和显示内容的位置移动过)。图201 用PLOT过程定制重叠散点图3 PLOT语句中的选项PLOT语句除了上述的重叠作图选项OVERLAY外,还有几类重要的选项如下:(1). 关于坐标轴刻度的任选项用VAXIS(或HAXIS)=标记值列表,定义沿垂直(或水平)坐标轴相等间隔的刻度标记值。可以用BY n的方式规定刻度的增量。这些值可以是均匀上升或下降,也可以不是,既可以是数字值,也可以日期时间值。几种可能的选项格式如下:haxis=0 to 100 by 5haxis=01

7、jan20d to 31dec20d by 7vaxis=1 10 100 100 1000haxis=by 10其它还有VEXPAND(或HEXPAND)、VREVERSE(或HREVERSE)、VZERO(或HZERO)等有关坐标轴刻度选项。(2). 关于参考线的任选项如果要求在散布图的垂直或水平轴的指定数值上画出垂直或水平线作为参考线,可以使用如下选项:verf=100 400 1000 (三条水平参考线)href=01mar20d 01oct20d (两条垂直参考线)还可以用VERFCHAR或HREFCHAR=字符定义参考线的画线符号。(3). 关于图形轮廓的任选项BOX选项可以画出边

8、框围住整个图形,而不仅仅是画出底部和左边框。VPOS或HPOS=轴长度,规定水平或垂直轴上打印输出的数目。(4). 关于作等值线(层次图)的任选项当要求散点(x,y)的作图符号能根据z(通常z=f(x,y))值的大小规定不同的层次强度字符时,也就是相同z值的点用相同的作图符号,不同z值的点用不同的作图符号,但最多只能把z值分成10个层次的不同值。我们可以使用如下选项:plot x*y=z /contour=3 s1=A s2=+ s3=* ;plot x*y=z /contour=3语句说明:=z指定按Z变量的内容确定散点作图符号,选项contour=3规定三个层次强度,s1=A s2=+ s

9、3=*按上升顺序给出层次强度的作图符号。用户自己可以不定义S1、S2、S3的层次强度的作图符号,而使用缺省值。下面我们举例说明PLOT语句中选项的使用。例如,绘制上证指数周线数据集INDEXSH的散点图时,根据股票技术分析的需要,要画支撑和阻力线,以及趋势变异的时间和周期,这对以后的各种分析都很重要。我们可以通过调整纵横坐标轴的刻度和增加水平和垂直参考线来实现。程序如下:Libname Study “D:/Sasdata/Mydir”;Proc plot Data=Study.IndexSh Vpct=50 Hpct=80 Formchar=|-|- ;plot close*date=+ /h

10、axis=21dec90d to 01jan93d by 98 vaxis=100 200 400 800 1600href=16aug91d 30apr92d 20nov92dvref=96 135 400 1429 ;title1 Shanghai StockIndex ;title2 21dec90-01jan93 ;Run ;程序的运行结果显示在OUTPUT窗口中,见图202所示。图202 用PLOT过程定制重叠散点图输出解释:对上证指数从1990年12月21日开市到1993年1月1日的交易数据进行分析,主要经历三种市场状况:第一种市场状况是从1990年12月21日到1991年7月底8

11、月初,在96点至135点之间盘整筑底,历经大约3134周,形成W底;第二种市场状况是从1991年8月中旬有效突破阻力线135,形成稳步盘升单边市,至1992年4月24日历经大约2831周;第三种市场状况是从1992年4月30日至1992年11月20,在400点一线开始飙升冲顶1429,最后回落原地400点,历经大约29周。从上面的分析我们可以看到,水平和垂直参考线提供了一种看得见的暗示。技术分析的目的就是找到购买资产的适宜点,尽可能地识别一种趋势结束且另一种趋势开始的点,然后可作出适宜的交易。二. 生成高分辨率图形虽然PROC PLOT过程生成的散布图对基本数据分析是有用的,但是为了更详细的分

12、析和表达目的也可用PROC GPLOT过程来生成高分辨率图形。1 GOPITONS语句通常,当在使用PROC GPLOT和PROC GCHART等能生成高分辨率图形的过程时,要用到系统的一些特定特征,因此,要求指定图形设备和计算机系统的一些另外可能的选择。用下列GOPITONS语句能规定一个图形设备以运行SAS/GRAPH软件。 Goptions device=图形设备 ;例如,如果我们要指定图形输出设备为Windows环境下的黑白打印机:Goptions device=winprtm ;例如,如果我们要指定图形输出设备为Windows环境下的彩色打印机:Goptions device=win

13、prtc ;另外,我们还可以通过选择菜单命令Globals/Options/Global options或Globals/Graph/SAS Graph Driver来设定图形输出设备。2 PROC GPLOT过程生成高分辨率图形的PROC GPLOT过程的一般使用格式如下:Porc Gplot DATA=数据集 ;Plot 纵坐标变量Y*横坐标变量X;Symboln ;Axisn ;Run ;使用PROC GPLOT过程和PROC PLOT过程的区别,对于PROC GPLOT语句,PROC PLOT语句中的VPCT和HPCT等选项不可使用。两者的PLOT语句使用方法基本相同。最主要的区别是,

14、在PROC GPLOT过程中,可使用SYMBOLn语句和AXISn语句。3 用SYMBOLn语句定义线和符号SYMBOLn语句的主要作用:可以定义数据点的符号,可以定义数据点之间的连接方式,可以定义数据点和线的颜色。SYMBOLn语句的n取值范围从1到99,缺省值是1,n代表Y*X两个变量形成数据连线的系列数。一些主要选项如下: V=数据点图形符号数据点的符号有NONE(没有)、PLUS(缺省值加号)、STAR(星号)、SQUAR(小方块)、DIAMOND(小菱形)、TRANGLE(三角形)、CIRCLE(小圆圈)。 I=数据点间连接方式常用的连接有NONE(没有)、JOIN(直线)、SPLI

15、NE(平滑)、NEEDLE(从数据点到横坐标画垂直线)、HILOC(最高、最低、收盘价)、RL(直线回归线)、BOX25(盒形线)。 W=连线的线宽例如w=5。 H=图形符号的高度例如h=2.5。 L=定义连线的类型例如l=2。 C=定义颜色例如c=red。 FONT=定义一种字体例如font=swissb。SYMBOLn语句所定义的各种选现,由于数量众多,用户一般很难记忆,我们上面所列出的仅仅是一小部分。通常可以在命令输入框中发布SYMBOL命令,调出SYMBOL窗口,在选项参数的横线上键入?后,在参数对话框中选择参数。共有14项参数选现,每项中还有许多参数值。一个SYMBOLn语句一旦被定

16、义就一直保持有效,直到重新定义或者退出SAS系统。执行一个不带任何选项的SYMBOLn语句将取消SYMBOLn的全部定义,并不影响其它的SYMBOL语句。如果想要取消所有的SYMBOL语句定义,提交下面的语句:goptions reset=symbol ;4 用AXISn语句定义坐标轴在PROC GPLOT中,可以通过PLOT语句的选项、LABEL语句和FORMAT语句来修饰坐标轴。PLOT语句的选项允许控制坐标轴的刻度、文本和颜色。但使用AXISn语句的选项可以更集中、更方便地控制和管理坐标轴。常见的使用格式如下:Proc Gplot DATA=数据集 ;Plot Y*X / vaxis=a

17、xis1 haxis=axis2 ;Symboln ;axis1 label=(Price) order=(100 to 1500 by 200 ) offset=(20,10) ;axis2 label=(Date) order=(21dec90d to 01jan93d by 98 ) ;Run ;AXISn语句的LABEL选项规定该轴的标签,ORDER选项规定该轴的取值范围,OFFSET选项规定从该轴的原点开始的第一个主刻度空间大小,及从该轴最末端到最后一个刻度的空间大小。例如语句中的OFFSET=(20,10),当单位是PCT时,表示第一个主刻度空间为图形输出区域的20%,最后一个刻度

18、的空间为图形输出区域的10%。有时需要给图形加第二根纵轴,用来表示在同一时间期间上的另一个变量。两个变量不用同一纵坐标轴的原因,常常是两个变量的值的相差太大,如果两个变量的值显示在同一纵轴上,在图形上就会很难分辨值较小那个变量的值的变化。定义第二根纵轴(右轴)的方法如下:Porc Gplot DATA=数据集 ;Plot Y1*X / vaxis=axis1 haxis=axis2 ;Plot2 Y2*X / vaxis=axis3 ;Symboln ;axis1 ;axis2 ;axis3 ;Run ;用第二条PLOT2语句定义了第二根纵轴AXIS3。例如,我们要在同一图形上绘制上证指数的最

19、高-最低-收盘价和交易量的图形。由于价格和交易量的取值范围不同且相差悬殊,交易量用左边的纵轴来度量,价格采用右边的纵轴来度量。要生成最高-最低-收盘价图,原来INDEXSH数据集中的数据排列格式不符合要求,需要用数据步修改INDEXSH为INDEXSH2,将一条观测中最高HIGH、最低LOW、收盘价CLOSE三个数据,转换成三条观测中VALUE变量的数据,且三条观测的日期DATE不变。程序如下:Libname study d:sasdatamydir ;data study.indexsh2;set study.indexsh;value=high; output;value=low; out

20、put;value=close; output;Run ;Goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back) ;Proc gplot data=study.indexsh2;plot volume*date /vaxis=axis1 hvxis=axis2;plot2 value*date /vaxis=axis3 vref=0;symbol1 i=needle;symbol2 i=hiloc;axis1 label=(Volume) order=( 0 to

21、 700000 by 100000) offset=(0,50) ;axis2 label=(Date) order=(21dec90d to 01jan93d by 98) ;axis3 label=(Price) order=(0 to 1500 by 100) offset=(25,0) ;title Shanghai StockIndex;Run ;程序的运行结果显示在GRAPH窗口中,见图203所示。图203 用GPLOT过程定制的价格和成交量图在用PROC GPLOT过程绘制高分辨率的前,首先把绘图的数据转换和处理成能符合I=HOLOC连接方式的数据格式,另外为了确保在生成图形时,

22、各种符号定义准确,一般先使用GOPTIONS语句,清除先前定义各种符号(RESET=GLOBAL),然后再定义将在图中使用的全局符号体系。三. 散布图散布图又称散点图或相关图。它是以散点的分布反映变量之间相关情况的统计图。根据图中的各点分布和密集程度,大致可以判断变量之间协变关系的类型。在回归模型中,常用散布图来描述变量之间的相关关系,横轴上自变量的改变将引起纵轴上因变量的改变,回归模型中参数的计算。是通过使因变量的理论值与实际值之间偏差的平方和达到最小而得到的。为了便于理解散布图在回归模型中的应用,我们先用已知的线性方程来虚拟构造一组样本数据,画出散布图,从图中各散点形成的趋势看,是否符合线

23、性关系,然后决定用线性回归模型求回归方程,作为对总体回归直线的近似,必须进行统计检验才能确定这种近似是否恰当,最后我们可以得到确认的总体回归方程,再比较我们已知的方程,应该发现非常接近。例如,新创建的数据集LINE,是我们用身高(HEIGH)=体重(WEIGHT)+100这样一个简单直线方程来生成的模拟数据集。数据集中有一组高度HEIGH和体重WEIGHT的观测值。假设我们需要绘制回归直线及置信带等。可以先画出高度对体重的散布图进行观察和分析,然后利用回归过程建立高度(因变量)和体重(自变量)的线性方程式后,进一步可画出高度预测值对体重的散布图进行比较和分析。程序如下:Libname stud

24、y d:sasdatamydir;data study.line ;do n=1 to 200 by 1;weight=40+60*ranuni(1) ;height=1*weight+100+5*normal(1) ;output ;end ;Proc reg data=study.line;model height=weight; output out=study.linereg p=predict ;proc gplot data=study.linereg ;plot height*weight predict*weight / overlay;symbol1 v=dot c=red

25、i=none;symbol2 v=none c=blue i=spline;Run ;程序说明:数据步DATA自动生成200条观测,SAS系统提供了两个均匀分布的随机函数RANUNI()和UNIFORM()产生01之间的随机数,用随机函数构成的40+60*ranuni(1)表达式,将使WEIGHT变量的取值范围为40100公斤之间的随机值。SAS系统还提供了两个标准正态分布的随机函数NORMAL()和RANNOR(),产生均值为0标准差为1标准正态随机数。随机数表达式1*weight+100+5*normal(1) 是经过线性变换产生的均值为1*weight+100,标准差为5的随机数,对于正

26、态分布将有95%的数据落在均值附近的两个标准差之内,例如,对于weight=50来说,身高的均值为50+100=150,因此将有95%可能HEIGHT变量的取值范围为140160厘米。PROC REG回归过程,首先建立输入为WEIGHT输出为HEIGHT的回归模型,并用OUTPUT语句创建包含身高预测值的输出数据集,定义输出数据集名为Study.LineReg,定义存放预测值的变量名为PREDICT。最后用PROC GPLOT过程把实际高度对重量及预测高度对重量两张散布图重叠放在一张图上,通常两张图应该用不同的作图字符来表示散点,实际高度对重量用无任何连线的小圆点表示,预测高度对重量用平滑曲线

27、连接散点。高分辨率的输出图形显示在GRAPH窗口,在OUTPUT窗口还显示输出PROC REG过程的统计报告,如下所示:Model: MODEL1Dependent Variable: HEIGHT Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 58792.37183 58792.37183 2524.881 0.0001 Error 198 4610.47060 23.28521 C Total 199 63402.84243 Root MSE 4.82547 R-square

28、0.9273 Dep Mean 170.67056 Adj R-sq 0.9269 C.V. 2.82736 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T|INTERCEP 1 97.812209 1.48957643 65.664 0.0001WEIGHT 1 1.033179 0.02056151 50.248 0.0001从回归分析报告中我们看出,对样本回归直线与观测值之间的拟合程度的检验(也称拟合优度检验)用判定系数R2检验,R2的取值范围0

29、1,越接近1,拟合程度越好;反之越差。本例中R2为0.9273,调整后的R2也为0.9269,非常接近于1。还有参数显著性检验(T检验)和回归总体线性的显著性检验(F检验)都显示高度显著。我们可以确认回归模型的估计式为:HEIGHT=1.033179*WEIGHT+97.812209SAS系统的许多图形过程都带有统计计算,许多统计分析过程都带有图形输出。PROC GPLOT画图过程就带有回归模型的预测值和置信带计算,并用曲线连接。程序如下:Goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swiss

30、b colors=(back) ;proc gplot data=study.line ;plot height*weight height*weight /vaxis=axis1 haxis=axis2 overlay;symbol1 i=none v=dot cv=black h=1.5 ;symbol2 i=rlcli95 ci=black cv=black co=black w=2.5 L=1;axis1 label=(Height) order=(130 to 210 by 10) ;axis2 label=(Weight) order=(40 to 100 by 10) ;title Linear Regression;Run ;程序说明:对样本数据集STUDY.LINE不先调用统计计算过程求回归预测值,而是直接绘制实际身高对体重的两张重叠散点图。然后对第二张图的连接方式I选项确定为RLCLI95,分成三部分含义: RL表示作直线回归,还可用表示作2次回归RQ和RQ0(消除截距,强制线经过原点)代替,或表示作3次回归的RC、RC0代替; CLI表示作单个预测值的置信带,可用CLM代替,表示作均数的置信带; 95表示置信度为95%,另有两个可用值为90和99。有关散布图中I选项的回归参数取值,可在SYMBOL窗口的TYPE参数选项横线

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1