sas讲稿第2章.docx

资源描述

sas讲稿第2章.docx

《sas讲稿第2章.docx》由会员分享，可在线阅读，更多相关《sas讲稿第2章.docx（23页珍藏版）》请在冰豆网上搜索。

sas讲稿第2章.docx

sas讲稿第2章

SAS软件与应用统计

第二章统计量计算

2.1频数统计与直方图

2.1.1概述

1.频数

虽然频（个）数统计只是一个简单的过程，但通过它可以了解样本中变量取值的分布，并进一步估计总体的分布。

此外，从样本取值的分布中也可发现一些明显不合理的例外记录，从而帮助我们剔除不合理的数据。

因此，进行频数统计也是数据预处理中发现例外记录的一种重要的方法。

年龄

频数

百分数

累计频数

累计百分数

17.5

37.5

67.5

17.5

7.5

92.5

7.5

100

2.直方图

对于数值型变量，常用直方图来展示变量取值的分布。

直方图的宽度就是区间的宽度，高度可以是频数、百分数或比率。

还有一种常用的密度直方图，它以密度为纵坐标，用以估计总体分布密度。

在此，分组区间的宽度对直方图的形态有很大的影响，一个合适的分组是希望直方图的形态能接近总体的分布密度，SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式，也提供了设定分组的方法。

2.1.2用SAS／INSIGHT作频数统计和直方图

首先用INSIGHT打开数据集SASUSER.CLASS。

1.作直方图

选择菜单“Analyze”→“Histogram／BarChart（Y）（直方图/条形图）”；

然后在打开的“Histogram／BarChart（Y）”对话框中选定变量。

如对数据集CLASS作变量SEX和WEIGHT的直方图：

依次选择变量SEX和WEIGHT，单击“Y”按钮，将变量移到右上方的列表框中，如图2-1左所示。

单击“OK”按钮，得到变量SEX和WEIGHT的直方图如图2-1右所示。

图2-1变量SEX和WEIGHT的（频数）直方图

2.作频数统计

选择菜单“Analyze”→“Distribution（Y）（拟合分布）”；

然后在打开的“Distribution（Y）”对话框中选定分析变量。

依次选择变量SEX和AGE，单击“Y”按钮，将变量移到右上方的列表框中，如图2-2左所示；

单击“Output（输出）”按钮，在打开的对话框中选中FrequencyCounts和Histogran/BarChart复选框，取消其它所有复选框，如图2-2右所示，单击“OK”按钮，返回。

图2-2“Distribution（Y）”对话框

单击“OK”按钮，得到变量SEX和AGE的基本统计分析；分析结果包括2个部分：

直方图和频数表，如图2-3所示。

图2-3（频率）直方图、频数表（FrequencyCounts

在结果图中：

点击直方图菜单中的Ticks（标记），可在打开的“Ticks”对话框中改变区间的分组，有时直方图的分组会改变它的形态；点击菜单中的Value（值），可在每个柱上标出柱的高度，如图2-3左所示。

2.1.3用分析员应用作频数统计和直方图

首先在“分析员应用”中打开数据集SASUSER.CLASS，下面作SASUSER.CLASS中变量SEX和AGE的频数统计和直方图。

选择菜单“Statistics（统计）”→“Descriptive（描述）”→“FrequencyCounts（频数计数）”，打开“FrequencyCounts”对话框；

然后在打开的对话框中选定变量：

SEX和AGE，如图2-4所示；

图2-4设置频数统计和直方图

单击“Plots”按钮，在打开的“FrequencyCounts：

Plots”对话框中，选中“Vertical（垂直的）”复选框，如图2-4右所示，单击“OK”按钮，返回“FrequencyCounts”对话框；

在“FrequencyCounts”对话框中单击“OK”按钮，得到分析结果，如图2-5所示。

图2-5SEX和AGE的频数统计和直方图

其中频数统计中包括Frequency（频数）及其Percent（百分比）、CumulativeFrequency（累计频数）及CumulativePercent（累计百分比）；而直方图则形象地给出频数统计的图形。

2.2常用描述性统计量计算

2.2.1概述

对于数值型变量，分布是最全面地描述其取值特性的，但是要确定一个分布需要较多的信息。

所以常用变量取值的某一方面的特征来描述变量，例如：

均值、方差等等。

对于样本也是如此，也常使用描述它某一方面的特征的各种统计量来描述样本，同时也对总体特征进行估计和推断。

1.样本均值的度量

（1）均值（Mean）：

样本均值就是Xl，X2，…，Xn的平均值，即

（2）中位数（Median）：

中位数是描述样本数据中心位置的统计量，大体上比中位数大（小）的数据为整个样本的一半。

将样本排序后

中位数的一个优点是它不受个别极端数据变化的影响，具有稳健性。

当分布比较有规则即不存在极端的值时，用均值代表分布的中心比较好；而在有极端值时则用中位数更合适。

如：

1，1.2，2，3，3，3.5，4，4.1，50

中位数为3，均值为7.9。

（3）分位数（Quartile）：

分位数是描述样本分布和位置的统计量。

0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数（或四分之三分位数、四分之一分位数），并分别记为Q3和Q1。

2.样本分散性的度量

（1）样本方差（Variance）：

样本方差是描述样本取值分散性的一个度量，它是样本数值相对于其均值的偏差平方和的平均。

（样本方差的量纲与原变量不一致）

在此采用n-1的目的是为了保证估计的无偏性。

（2）样本标准差（Standarddeviation）：

样本方差的开方称为样本标准差。

（样本标准差的量纲与原变量一致）

方差和标准差所反映的是数据对其均值中心的某种离散程度，标准差（或方差）较小的分布一定是比较集中在均值附近的：

反之则是比较离散的。

（3）极差（Range）：

极差=

（4）半极差（Interquartilerange）：

上下四分位数之差Q3-Ql称为四分位极差或半极差。

（5）变异系数（coefficientofvariation）：

将标准差表为均值的百分数，是变量分散性的一个度量。

它在比较用不同单位测量的变量的分散性时是有用的。

一般来说，样本均值是对分布中心的最普通的度量，而样本标准差则是对分布形状的最常用的度量。

3.形态的度量

a）偏度（Skewness）：

偏度可以表现变量分布的偏斜，关于均值对称的数据其偏度为0，偏度小于0为左偏，偏度大于0为右偏。

偏度=

图2-6右偏

图2-7左偏

b）峰度（Kurtosis）：

峰度表现变量分布与正态分布相比是重尾（分布密度在正负无穷处衰减缓慢）还是轻尾（分布密度在正负无穷处衰减迅速）。

峰度=

两侧极端数据较多时峰度为正（重尾？

），两侧极端数据较少时峰度为负（轻尾？

），正态分布的峰度为0。

样本的偏度和峰度分别为总体的偏度和峰度的估计量。

4.样本的均值和方差分别是总体均值和方差的估计量

a）标准误差（standarderror）：

标准误差在统计中是一个十分重要的概念，它代表把

看成随机变量时其标准差

的估计量。

实际计算公式：

如果估计量服从正态分布，通常用估计量加减两倍标准误差作为估计量的置信区间。

c）校正平方和（correctedsumofsquares）：

d）未校平方和（uncorrectedsumofsquares）：

5.矩统计量（MomentStatistics）

样本均值和样本方差都是由样本数值（或减去均值后）的某一次方的平均，这类统计量统称矩统计量，均值和方差分别称为一阶矩和二阶矩，常用的矩统计最还有偏度和峰度。

a）n阶原点矩：

b）n阶中心矩：

矩统计量用于点估计

6.众数（Mode）

众数指的是数值变量取值频数统计中对应频数最大的那个值。

如：

1，1.2，2，3，3，3.5，4，4，4，4.1，50，众数为4。

2.2.2用Insight计算常用描述性统计量：

在INSIGHT环境中，只对区间型变量提供计算描述性统计量的功能。

下面以SASUSER.CLASS为例，计算HEIGHT和WEIGHT的描述性统计量：

（1）首先启动SAS/INSIGHT，并打开数据集SASUSER.CLASS；

图2-8选定分析变量

（2）选择菜单“Analyze”→“Distribution（Y）（拟合分布）”；

（3）在打开的

“Distribution（Y）”对话框中选定分析变量：

依次选择变量HEIGHT、WEIGHT，单击“Y”按钮，将变量移到右上方的列表框中，如图2-8所示。

（4）单击“OK”按钮，得到变量的基本统计分析，如图2-9所示；

图2-9描述性统计量

（5）可以看到，对每个变量都有两张表，第一张为矩统计量（Moment）表，在表中，N表示有效记录数（从样本容量中扣除了缺失值个数），SumWgts表示权数之和，在此没有特别指定权数，故约定每个记录的权都是1。

第二张为分位数（Quantile）表，列举了各种分位数、众数和由分位数导出的一些统计量。

（6）点击每个表左上角的箭头可弹出一个菜单，选Format可改变表中数据显示的格式（小数位数）；选Save，可将该表输出到Output窗口供进一步处理（试试）。

2.2.3用分析员应用计算常用描述性统计量

首先启动“分析员应用”，并打开数据集SASUSER.CLASS。

在分析员应用环境下，有下述两种方法获得变量的描述性统计量。

1.有选择地计算矩统计量或极值

选择菜单“Statistics（统计）”→“Descriptive（描述）”→“SummaryStatistics（汇总统计量/综合统计分析）”，打开“SummaryStatistics”对话框；

在对话框中，依次选中分析变量HEIGHT和WEIGHT，单击“Analysis”按钮，将其移入中间的列表框中，如图2-10所示；

图2-10有选择地计算矩统计量

单击“Statistics”按钮，打开“SummaryStatistics”对话框，可以在其中选定输出的统计量，例如选择Range（极差），如图2-10右所示，单击“OK”按钮，返回；

单击“Output”按钮可定义输出格式，还可以把某个变量选入Class进行分组计算统计量。

最后，单击“OK”按钮，得到如图2-11所示的矩统计量。

图2-11矩统计量

2.提供详细的矩统计量和分位数

选择菜单“Statistics（统计）”→“Descriptive（描述）”→“Distrbutions（分布）”，打开“Distrbutions（分布）”对话框；

在对话框中选择分析变量HEIGHT、WEIGHT，单击“Analysis”按钮，将变量移到中间的列表框中；如图2-12所示；

图2-12选择分析变量

单击“OK”按钮，得到计算结果如图2-12所示。

图2-13分析结果

表中每个变量的信息包含五部分：

第一部分：

为矩统计量的数值；

第二部分：

为基本统计测量；

第三部分：

为位置参数检验的结果（将在第三章介绍）；

第四部分：

为分位数；

第五部分：

为极值，包括最大、最小的五个值及相应的观测。

说明：

在“Distrbutions（分布）”对话框中，选择变量Sex，单击“Class”按钮，将其移到“Class”列表中可以作为分组变量。

2.3分布图形和分布拟合图

2.3.1盒形图与马赛克图

1.盒形图

图2-14SAS/INSIGHT身高的盒形图

盒型图是用更为简洁的方法表现某一数值型变量数据在数轴上的分布及其特点的图形。

比如，在SAS/INSIGT中打开CLASS后，要画身高分布的盒形图，选定变量HEIGHT然后用"Analyze-BoxPlot/MosaicPlot"可以做出图2-14所示的盒形图。

从图形菜单中选Values可以标出图中重要数据值。

可以看出，此盒形图的横轴没有用处，纵轴代表身高的取值范围。

盒形的中间有一条粗线，这是身高分布的中位数的位置，盒子上边线是分布的四分之三分位数，下边线是分布的四分之一分位数，盒子上下边线包含了分布的中间50%的观测。

盒子的长度叫做分布的四分位间距，其作用类似于标准差，可以反映数据分布的分散程度。

从盒子边线向外画了两条线叫做触须线，最长可以延伸到四分位间距（即盒长）的1.5倍，但是如果已经到了（四分位间距的1.5倍内的）数据的最小值或最大值处就不再延伸。

如果有些数据值超出了触须线的范围则这些数据用触须线以外的点来画出，一般认为这样的点是可能的异常点（极端值）。

从盒形图可以看出数据的偏斜情况，比如我们看到盒子的下半部比上半部长，而且下触须线比上触须线长，说明身高分布略左偏。

用盒形图菜单中的“Means”选项可以在盒形图上加画一个菱形，菱形的中间代表分布的平均值，菱形端点到中间距离为两倍标准差（菱形两端点之间的区间为（

-2S，

+2S）？

）。

如果是变量服从正态分布，菱形上下端点之间应该包含大约95%的观测。

平均值和中位数的比较也能反映变量的偏斜情况，平均值低于中位数可能左偏。

单击或双击盒形图的某一部分（盒子上半部或下半部、触须线、极端值）可以选定部分观测。

盒形图可以方便地比较按某分组变量分组后的分布情况。

比如，如果我们想看一看男女的身高分布有何异同，在SAS/INSIGT中打开CLASS后，不选任何变量启动"Analyze-BoxPlot/MosaicPlot"菜单，弹出选择变量的对话框如图2-15，选身高为Y变量，选性别为X变量，画出的图见图2-16。

图中有两个盒形图，女生一个，男生一个。

从图中看出，男生身高普遍高于女生，且女生身高分布左偏较男生严重。

这种并排盒形图可以十分直观地比较两个相关的分布。

图2-15SAS/INSIGHT盒形图变量指定

图2-16SAS/INSIGHT男女身高的盒形图比较

从盒型图上可以大体看出数据集中在什么范围，左右两侧是否对称等等。

作盒形图时指定多个Y变量也可以作出并排的盒形图，比如，同时指定身高和体重作为Y变量作盒形图就可以生成身高和体重的并排的盒形图

作盒形图的另外两种方法

方法一：

启动SAS/INSIGHT，打开数据集SASUSER.CLASS。

（1）选择菜单“Analyze”→“Distribution（Y）（拟合分布）”；

（2）在打开的“Distribution（Y）”对话框中选定分析变量WEIGHT，单击“Y”按钮，将变量移到右上方的列表框中；

（3）单击“Output（输出）”按钮，在打开的对话框中选中Histogran/BarChart复选框，取消其它所有复选框，如图2-17右所示，单击“OK”按钮返回，再单击“OK”按钮，得到变量WEIGHT的盒形图，如图2-18所示；

图2-17图2-18

点击盒形图菜单中的Means可在盒形图上画一个菱形，其垂直的对角线表示均值的位置，左右两个顶点分别向左右延伸一倍标准差的距离；点击菜单中的value可在图上标出中位数、四分位数等的数值，如图2-19右所示。

图2-19设置图形显示

方法二：

启动分析家，打开SASUSER.CLASS。

选择菜单“Statistics（统计）”→“Descriptive（描述）”→“Distrbutions（分布）”，打开“Distrbutions（分布）”对话框；

在对话框中选择分析变量WEIGHT，单击“Analysis”按钮，将变量移到中间的列表框中；

单击“Plots”按钮，在打开的“Distrbutions：

Plots”对话框中选中Box-&-whiskerplot复选框，如图2-20所示，单击“OK”按钮，返回“Distrbutions”对话框；

图2-20

单击“OK”按钮，得到图2-21所示的盒形图。

图2-21盒型图

2.马赛克图

进入SAS/INSIGT后，Analyze菜单的“BoxPlot/MosaicPlot”命令对连续型变量作盒形图，对离散型变量将作马赛克图。

比如，对性别变量作图得图2-22。

选“Values”菜单后标出了男女的人数、百分比。

图2-22SAS/INSIGHT性别的盒形图

图2-23SAS/INSIGHT性别和年龄的交叉马赛克图

马赛克图一般不对单个变量作，而是对两个离散变量来作。

比如，先把SASUSER.CLASS中变量AGE的量测水平由Int改为Nom，然后取消所有变量的选定，启动“BoxPlot/MosaicPlot”，选SEX为Y变量，选AGE为X变量，作图如图2-23。

这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例。

单击其中一个方块可以迅速选中一个分组，比如单击年龄为11，性别为女（F）的方块可以看到这一组的学生。

双击某一方块可以检查相应组的学生。

2.3.2分布拟合

样本的密度直方图可以作为对总体分布密度的一个估计量。

但由于直方图本身构造的限制，它顶端的形态曲线只能是折线，而常用的一些分布密度曲线如正态分布等，都是一些有一定形态的光滑曲线，这就要用到分布拟合。

参数分布拟合就是在限定的参数分布类（如正态分布）中通过对参数的估计，用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。

在SAS系统中提供的参数分布类型有：

●正态（Normal）分布；（最为常用的分布）

●对数正态（Lognormal）分布；

●指数分布；

●Gamma分布；

●Weibull分布；

除了参数分布拟合，SAS系统还提供了几种非参数分布密度拟合的方法。

2.3.3用SAS／INSIGHT作分布拟合图形

1.拟合分布密度曲线

在用SAS／INSIGHT制作了直方图后，往往还希望拟合一个参数分布的密度曲线，例如正态分布的密度曲线，以估计总体的分布。

选择菜单“Curves”→“ParametricDensity”；在打开的“ParametricDensityEstimation”对话框中取默认值（默认值为利用样本估计量进行正态分布拟合），单击“OK”按钮，即可看到在显示的直方图中用红色的曲线表示拟合的正态分布密度曲线，如图2-24所示。

图2-24拟合分布密度曲线

2.QQ图（Quantile→QuantilePlot）

不论直方图或累计分布图，要从图上鉴别样本的分布是否近似于某种类别的分布是较困难的。

QQ图（即分位数—分位数图）可以帮助我们方便地鉴别样本的分布是否近似于某种类型的分布。

QQ图是一种散点图，对应于正态分布的QQ图，就是由标准正态分布的分位数为横坐标，样本对应的分位数为纵坐标的散点图。

要利用QQ图鉴别样本数据是否近似于正态分布，只需看QQ图上的点是否近似地在一条直线附近，而且该直线的斜率为标准差，截距为均值（事实上：

设有n个观测y1，y2，…，yn，并已从小到大排列，则yi是总体的i/n分位数的估计，设xi是标准正态分布的i/n分位数，则在样本来自正态N（,2）的情况下用（xi,yi）（i=1，2，…，n）作为坐标画散点图应该近似呈现为截距、斜率的一条直线）。

作QQ图的步骤：

在用SAS／INSIGHT的菜单“Analyze”→“Distribution（Y）制作了一些分布图形后，选择菜单“Graphs”→“QQPlot”，在打开的“QQPlot”对话框中选中一个分布，如正态分布，如图2-25左所示。

图2-25作QQ图

为了进一步考察QQ图上的点是否在一条直线附近，可以拟合一条直线或画一条特定的直线供比较；选择菜单“Curves”→“QQRefLine”，在打开的“QQRefLine”对话框中去默认值（默认为用最小二乘法拟合），得到拟合直线，如图2-15右所示。

图2-26累计分布图

3.作累计分布图（选讲）

在制作了以上分部图形后，若想得到变量的累计分布图，可以选择菜单“Curves”→“EmpiricalCDF”，得到的累计分布图如图2-26所示。

2.3.4用分析员应用作拟合分布图形

首先启动“分析员应用”，并打开数据集SASUSER.CLASS。

1.作QQ图

选择菜单“Statistics（统计）”→“Descriptive（描述）”→“Distrbutions（分布）”，打开“Distrbutions（分布）”对话框；

在对话框中选择分析变量WEIGHT，单击“Analysis”按钮，将变量移到中间的列表框中；

单击“Plots”按钮，在打开的“Distrbutions：

Plots”对话框中选中想做的图形，如图2-27所示，单击“OK”按钮，返回“Distrbutions”对话框；

？

图2-27累计分布图

单击“OK”按钮，得到图2-28所示的盒形图、直方图和QQ图。

图2-28QQ图

2.拟合参数分布密度曲线

在分析员应用环境中，要对直方图拟合参数分布密度曲线是作为制作直方图的附加选项进行选择的。

如对变量WEIGHT的直方图拟合正态分布密度曲线，其均值方差就取样本的均值和方差，则应

（1）选择菜单“Graphs（图形）”→“Histogram（直方图）”；

（2）在打开的“Histogram”对话框中选定变量，如图2-29左所示；

（3）单击“Fit”按钮，打开“HistogramFit”对话框，在其中选中“Normal”复选框，如图2-29右所示，单击“OK”按钮返回；

图2-29拟合参数分布密度曲线

单击“OK”按钮，得到图2-30所示的结果。

图2-30拟合分布密度曲线

2.4练习

1.生成直方图和条形图：

1）用数据集SASUSER.CLASS对变量SEX、AGE、WEIGHT和HEIGHT生成直方图／条形图。

2）用这些直方图／条形图察看数据。

你能对这些变量作出什么初步的结论?

2.生成盒形图：

1）对变量WEIGHT用NAME作标题名生成盒形图，是否有例外值?

2）在同一坐标系下生成变量WEIGHT的两个盒形图，每种性别一个。

3）在两个盒形图里是否有例外值，若有，分别是谁。

4）关于这两个盒形图，你能得出什么初步结论?

3.分析变量的分布：

1）用Distribution更细致地看变量WEIGHT的分布。

2）这个变量的均值是什么，中位数是什么?

3）WEIGHT的分布是否偏向一侧?

4）WEIGHT的标准差和极差是什么?

这些信息告诉你什么?

5）WEIGHT的分布是否服从正态分布?

6）对每种性别察看变量WEIGHT的分布并填写下表：

SEX均值中位数标准差极差

毋意，毋必，毋固，毋我。

____《论语·子罕篇》

君子有九思：

视思明，听思聪，色思温，貌思恭，言思忠，事思敬，疑思问，忿思难，见得思义。

____《论语·

展开阅读全文