描述性统计研究分析Word文档下载推荐.docx-资源下载

描述性统计研究分析Word文档下载推荐.docx

1、样本的度量值. ）:样本的度量值. 一般总体参数用希腊字母表示: 一般总体参数用希腊字母表示: 均值方差标准差 2 总体样本 X s2 s3. 自由度自由度是某一统计量中, 自由度是某一统计量中,变量可以自由取值的个数表示自由度. 用df表示自由度. 表示自由度例变量有n个取值, df=n;若它们受到变量X有个取值个取值, 例变量 ; k（kn）个条件制约,则df=n-k 个条件制约, 个条件制约4. 表示数据位置的统计量均值（均值（Mean）: ）: 所有观测值的平均值. 所有观测值的平均值.x = （ xi ） / ni =1n中位数（）:用以描述数据取中位数（

2、Median或Med）:用以描述数据取或）: 值的中心位置. 值的中心位置. 中位数的计算方法:先将数据从小到大排序,x1,x2,xn然后计算:中位数的优点是它不受个别极端数据的影响,具有稳健性众数（）:观测值中出现最多的数众数（Mode）:观测值中出现最多的数. ）:观测值中出现最多的数. 百分位数（Percentile）: 描述数据分布和位置的统计百分位数量. 0.5分位数就是中位数,0.75分位数和0.25分位数分别称为上,下四分位数,记为Q3和Q1. 一般地,k百分位数（k-percentile）,即约有k%的观测值小于它.5. 表示数据分散程度的统计量极差（Ra

3、nge）:数据中最大值和最小值之差. :数据中最大值和最小值之差. 极差极差 = maxxi minxi 方差（Variance）以变量取值相对于均方差（）值的偏差平方平均来度量（又称均方MS）. 值的偏差平方平均来度量（又称均方）.s = （xi x）） /（n 1）2 2 i=1例SAS计算样本方差的步骤例计算样本方差的步骤计算样本均值计算每个观测值同均值的差值把这些差值分别平方再求这些平方的和把平方和除以n-1,n为差值的个数（样本容量）为差值的个数（把平方和除以 , 为差值的个数样本容量）假设样本值分别为10,11,12,15,均值为 ,样假设样本值分别为

4、 ,均值为12, 本容量为4,方差按下式计算: 本容量为 ,方差按下式计算:s2=（（10-12）2+（12-12） 2+（11-12） 2+（15-12） 2）/（4-1）（）（）（）（）（） =4.67标准差（）:方标准差（Standard deviation或Std Dev）:方或）: 差的开平方. 差的开平方. 标准差的量纲与原变量一致. 方差和标准差所反映的是数据对其均值的某种离散程度.标准差（或方差）较小的观测数据一定是比较集中在均值附近,反之则是比较离散的. 变异系数（Coefficient of Variation或CV）变异系数或变异系

5、数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的.CV=s （标准差） 100 % x （均值）5. 表示数据分布形状的统计量偏度（Skewness）:描述数据对称性的指标. :描述数据对称性的指标. 偏度 xi x SK 1 s i= 在SAS中,均值对称的数据,其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏. 峰度（Kurtosis）:描述数据向分布尾段散布的趋势峰度描述数据向分布尾段散布的趋势 4 2 n = （ n 1 ）（ n 2 ）3n n（n +1） xi

6、 x 3（n 1） K= s （n 2）（n 3）（n 1）（n 2）（n 3） i=1 利用峰度研究数据分布形状是以正态分布为标准,比较两端极端数据的分布情况,若近似于标准正态分布,峰度接近于零;尾部较正态分布更分散,则峰度为正;尾部较正态分布更集中,则峰度为负武汉大学计算中心 LOGO正态分布如果数据来自正态分布总体, 如果数据来自正态分布总体,则:68%的值落在距均值个标准差的范围之内的值落在距均值1个标准差的范围之内的值落在距均值 95%的值落在距均值个标准差的范围之内的值落在距均值2个标准差的范围之内的值落在距均值 99%的值落在距均值个标准差的范围之内的值

7、落在距均值3个标准差的范围之内的值落在距均值例如:由12岁女孩体重组成一个总体,这个总体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间概率P（probability）概率概率是度量某随机事件发生可能性大小的一个数量. 概率的取值范围在01之间.若某一事件必然不发生,P=0;某一事件必然发生,P=1 概率论是数理统计的基础,统计分析的许多结论,都是建立在概率大小的基础之上的.统计的过程如下:总体抽样样本计算统计量推断描述统计量描述:描述样本的各主要特征推断

8、:扩大所收集信息的使用范围,用样本的特征来推断总体的特征. LOGO例儿童体检数据如下例刘明蔡行李敏李涛夏天郭红胡月程彬杨兵刘进王苗苗 7 张思凡 7 3 3 4 4 4 5 5 6 6 6 女女男男女男男女女女男男 1.16 1.15 0.94 0.91 1.39 1.02 1.06 1.01 1.02 1.07 1.12 1.14 19.93 18.2 13.59 14.2 16.15 15.44 15.3 15.04 15.07 17.04 18.09 18.8 55.5 51.4 50.4 50 51.6 51.9 51 51.9 52.7

9、 53.7 54.1 53.5试用作描述性统计分析二,用SAS/ASSIST进行描述统计进行描述统计选择解决方案选择解决方案/ASSIST,并在欢迎窗口中点击解决方案 , 按钮继续选择Cascading Menu为新的为新的ASSIST工作选择为新的工作模式;选择Block Menu为ASSIST 6的菜单模式;选择为的菜单工作模式. 工作模式. 选择 Data Analysis/Elementary/Summary Statistics 打开数据统计分析的操作窗口 .点击Table按钮,确定要操作的数据集按钮, 点击按钮点击Columns按钮,确定要分析的

10、变量按钮, 点击按钮点击Class按钮,确定分组变量按钮, 点击按钮点击Output Table按钮可将本次分析的结果点击按钮可将本次分析的结果数据输出到一个数据集中作为原始数保存起来 Summary Statistic窗口的下方,确定所求 Statistic窗口的下方窗口的下方, 的统计量 ,可以根据需要选择一项或多项所求的统计量Number of nonmissing values 包括分析变量缺项值的观测数 Number of missing values 不包括分析变量缺项值的观测数 Minimum 最小值 Maximum 最大值 Range 全距, 全距,极差 S

11、um 和 Mean （平）均值 Variance 方差 Standard Deviation 标准差 Standard error of the mean 均数的标准误 Coefficient of variation 变异系数 Skewness 偏度 Kurtosis 峰度三,用SAS/INSIGHT进行数据描述进行数据描述1. 用INSIGHT作直方图作直方图选择解决方案/分析交互式数据分析命令启动SAS/INSIGHT 选择解决方案分析/交互式数据分析命令启动分析软件确定数据所在的数据集（确定数据所在的数据集（CLASS）选择分析 /直方图条形图（y）项绘制某变量

12、的柱状图直方图直方图/条形图项绘制某变量的柱状图/直方图直方图条形图项绘制某变量的柱状图将WEIGHT选为Y 再点击确定若单独考察女生的年龄分布, 若单独考察女生的年龄分布,可在既存的图下作如下操作编辑/窗口/动画,在弹出的对话框中选SEX中的G即可,若再点击应用则以动态的方式交替显示不同性别的直方图,拖动速度处的游标可以调节交替的速度2,用SAS/INSIGHT进行分布检验 , 进行分布检验解决方案/分析分析/交互式数据分析选择解决方案分析交互式数据分析命令启动 SAS/INSIGHT软件软件确定数据所在的数据集分布（Y）项绘制某连续变量的盒状图和分布图

13、选择分析 /分布分布项绘制某连续变量的盒状图和分布图在分布（Y）对话框右侧的列表框中选择对话框右侧的列表框中选择WEIGHT变量,单击变量, 在分布对话框右侧的列表框中选择变量按钮按钮单击按钮单击输出按钮,选累积分布分布检验下方选择正态在分布检验在置信带下选95%置信水平在置信带下选置信水平依次点击确定2,用SAS/INSIGHT进行分布检验 , 进行分布检验在显示的图形中,中间是经验分布曲线,两侧的是在显示的图形中,中间是经验分布曲线, 置信限 . 置信水平可用鼠标拖动改变. 置信水平可用鼠标拖动改变. 检验结果汇总在下方的分布检验表中并提供了统计

14、量的数值及相应的检验概率值: 并提供了统计量的数值及相应的检验概率值:原假设为总体分布为正态的. 设为总体分布为正态的. 本例相应的p值本例相应的值0.150.05=.所以无法拒绝 . 原假设, 原假设,可以接受总体分布为正态的用分析家作频数统计选择解决方案分析分析家分析/分析家选择解决方案/分析分析家进入分析家环境点击文件/按名称打开点击文件按SAS名称打开打开数据集名称打开点击统计/描述性统计频数统计在弹出的对描述性统计/频数统计点击统计描述性统计频数统计,在弹出的对话框中: 话框中: AGE=Frequencies,Sex=Frequencies

15、点击OK用程序作基本统计分析 SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ,MEANS和UNIVARIATE这三个过程来计算简单的描述统计量. FREQ过程常用来计算分类变量取值的频数, 而MEANS和UNIVARIATE过程则对数值型变量计算均值,标准差等统计量.用程序作基本统计分析Proc freq data=数据集名选项 ; 选项; 数据集名选项 tables 变量名列表选项 ; 变量名列表/选项选项; Run;Tables语句中的选项: 语句中的选项: 语句中的选项 nocum不要累计的频数和百分数不要累计的频数和百

16、分数 nopercent-不要百分数和累计的百分数不要百分数和累计的百分数 Proc freq语句中的选项: 语句中的选项 order=internal按变量值排序按变量值排序 freq按频数降序排序按频数降序排序 data按数据集中的值的次序排序按数据集中的值的次序排序 formatted按变量格式化的值排序按变量格式化的值排序例例1Proc freq data=temp.class order=freq; tables age;2 tables w;可见,数据的统计意义不大.但是若将体重数据分组显示频数,是有意义的MEANS过程 2. MEANS过程（1）语法格式 MEA

17、NS过程的一般格式: 过程的一般格式: 过程的一般格式 PROC MEANS DATA=; VAR ; BY CLASS RUN;PROC MEANS语句后的选项主要用来指定所语句后的选项主要用来指定所要计算的统计量,默认情况下, 要计算的统计量,默认情况下,MEANS过程会过程会给出频数,均数,标准差,最大值和最小值等, 给出频数,均数,标准差,最大值和最小值等, 其余统计量的计算均需要在选项中指定. 其余统计量的计算均需要在选项中指定. VAR语句引导所要进行分析的所有变量的列语句引导所要进行分析的所有变量的列将对VAR语句所引导的所有变量分别表,SAS将对将对语句所引导

18、的所有变量分别进行描述性统计分析. 进行描述性统计分析. BY语句与语句与CLASS语句所指定的分类变量用来语句与语句所指定的分类变量用来进行分组统计,但输出格式不同. 进行分组统计,但输出格式不同. 武汉大学计算中心如对数据集class中的中的hight变量计算简单统计量, 变量计算简单统计量, 如对数据集中的变量计算简单统计量只要用如下MEANS过程: 过程: 只要用如下过程 proc means data = class; var hight; run; （2）使用统计量关键字列表在PROC MEANS语句中使用统计量关键字列表: 语句中使用统计量关键字列表: 语

19、句中使用统计量关键字列表 proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; 可以计算的描述性统计量关键字及其含义见下表. 可以计算的描述性统计量关键字及其含义见下表.关键字 n nmiss mean std stderr var median mode cv max min sum sumwgt css uss 所代表的含义有效数据记录数缺失数据记录数均值标准差标准误方差中位数众数变异系数最大值最小值总计加权值总计校正平方和未校正平方和关键字 range skewness kurt

20、osis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99所代表的含义极差偏度峰度分布位置假设检验之t统计量上述t统计量对应的概率值第一四分位数第三四分位数四分位数间距第一百分位数第五百分位数第十百分位数第九十百分位数第九十五百分位数第九十九百分位数（3）使用使用CLASS语句和语句语句和BY语句语句和使用CLASS语句和语句可以分组计算分析语句和BY语句可以分组计算分析使用语句和变量的描述统计量值, 语句和BY语句变量的描述统计量值,由CLASS语句和语句语句和指定的变量在分析中起分组（的作用,

21、指定的变量在分析中起分组（类）的作用,被称为分类变量.两个语句的区别是: 为分类变量.两个语句的区别是: 使用BY语句时要求数据集须按语句时要求数据集须按BY变量排使用BY语句时要求数据集须按BY变量排使用CLASS语句无此要求. 语句无此要求. 序,使用语句无此要求使用BY语句时输出按语句时输出按BY变量的每个值分使用语句时输出按变量的每个值分别提供一个表,使用CLASS语句则将所有结果别提供一个表,使用语句则将所有结果排列在一个表之中. 排列在一个表之中.使用BY语句之前先排序, 使用语句之前先排序,如下代码可以在上语句之前先排序例中按变量sex分组统计

22、: 分组统计: 例中按变量分组统计 proc sort data = class; by sex;使用CLASS语句分组较为简单,如下代码也可以语句分组较为简单, 使用语句分组较为简单在上例中按变量sex分组统计: 在上例中按变量分组统计 class sex; RUN;UNIVARIATE过程 3. UNIVARIATE过程 UNIVARIATE过程的一般格式为: 过程的一般格式为: 过程的一般格式为 PROC UNIVARIATE DATA = BY | CLASS HISTOGRAM / OUTPUT OUT = = UNIVARIATE过程和过程和MEANS过程的格式非常过

23、程的格式非常过程和相似,相同的语句和选项其含义也相同, 相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在UNIVARIATE过程中计的是某些统计量只能在过程中计如众数）,而且UNIVARIATE过程中具有）,而且算（如众数）,而且过程中具有绘图功能. 绘图功能. 其中, 语句用来指示SAS对其其中,HISTOGRAM语句用来指示语句用来指示对其后所指定的变量绘制直方图, 后所指定的变量绘制直方图,其后的选项用来指添加不同类型的拟合图形（示SAS添加不同类型的拟合图形（如正态分布添加不同类型的拟合图形的分布密度曲线）. 的分布密度曲线）.输出包括

24、五个部分. 输出包括五个部分. 第一部分是各统计量. 第一部分是各统计量. 第二部分为基本的位置和分散程度统计量, 第二部分为基本的位置和分散程度统计量, 位置统计量包括均值,中位数,众数, 位置统计量包括均值,中位数,众数,分散程度统计量包括标准差,方差,极差, 统计量包括标准差,方差,极差,四分位间距第三部分为关于均值等于零的三种检验的结包括t检验符号检验和符号秩检验. 检验, 果,包括检验,符号检验和符号秩检验. 第四部分为各个重要的分位数. 第四部分为各个重要的分位数. 第五部分是观测数据的五个最低值和五个最高值. 高值. 六,FORMAT过程过程FORMAT过程用于定义

25、变量的输出格式. 定义: PROC FORMAT; VALUE 格式变量名分组形式; 其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式名. 引用: PROC 过程名 DATA=数据集名; 过程语句; FORMAT 数据集中的变量名格式名.;3Proc format; Value wfmt low-32=24-32 32-40=32-40 40-48=4048 48-56=48-56 56-64=56-64 64-72=64-72 72high=72- Proc print data=temp.class; Format w wfmt.; 若没有该语句数据集中的数据仍按原始显示若没有该语句,数据集中的数据集中的W数据仍按原始显示 Run;4上机作业1.下列数据为两个

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？