ImageVerifierCode 换一换
格式:DOCX , 页数:12 ,大小:23.80KB ,
资源ID:19688387      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19688387.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(描述性统计研究分析Word文档下载推荐.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

描述性统计研究分析Word文档下载推荐.docx

1、样本的度量值. ):样本的度量值. 一般总体参数用希腊字母表示: 一般总体参数用希腊字母表示: 均值 方差 标准差 2 总体 样本 X s2 s3. 自由度自由度是某一统计量中, 自由度是某一统计量中,变量可以自由取值的个 数 表示自由度. 用df表示自由度. 表示自由度 例变量 有n个取值, df=n;若它们受到 变量X有 个取值 个取值, 例 变量 ; k(kn)个条件制约,则df=n-k 个条件制约, 个条件制约4. 表示数据位置的统计量均值( 均值(Mean): ): 所有观测值的平均值. 所有观测值的平均值.x = ( xi ) / ni =1n中位数( ):用以描述数据取 中位数(

2、Median或Med):用以描述数据取 或 ): 值的中心位置. 值的中心位置. 中位数的计算方法:先将数据从小到大排 序,x1,x2,xn然后计算:中位数的优点是它不受个 别极端数据的影响,具有稳 健性众数( ):观测值中出现最多的数 众数(Mode):观测值中出现最多的数. ):观测值中出现最多的数. 百分位数(Percentile): 描述数据分布和位置的统计 百分位数 量. 0.5分位数就是中位数,0.75分位数和0.25分位数分 别称为上,下四分位数,记为Q3和Q1. 一般地,k百分位数(k-percentile),即约有k%的观 测值小于它.5. 表示数据分散程度的统计量极差(Ra

3、nge):数据中最大值和最小值之差. :数据中最大值和最小值之差. 极差极差 = maxxi minxi 方差(Variance)以变量取值相对于均 方差( ) 值的偏差平方平均来度量(又称均方MS). 值的偏差平方平均来度量(又称均方 ).s = (xi x) ) /(n 1)2 2 i=1例SAS计算样本方差的步骤 例 计算样本方差的步骤计算样本均值 计算每个观测值同均值的差值 把这些差值分别平方再求这些平方的和 把平方和除以n-1,n为差值的个数(样本容量) 为差值的个数( 把平方和除以 , 为差值的个数 样本容量) 假设样本值分别为10,11,12,15,均值为 ,样 假设样本值分别为

4、 ,均值为12, 本容量为4,方差按下式计算: 本容量为 ,方差按下式计算:s2=( (10-12)2+(12-12) 2+(11-12) 2+(15-12) 2)/(4-1) ( ) ( ) ( ) ( ) ( ) =4.67标准差( ):方 标准差(Standard deviation或Std Dev):方 或 ): 差的开平方. 差的开平方. 标准差的量纲与原变量一致. 方差和标准差所反映的是数据对其均值的某种离散 程度.标准差(或方差)较小的观测数据一定是比 较集中在均值附近,反之则是比较离散的. 变异系数(Coefficient of Variation或CV) 变异系数 或 变异系

5、数是将标准差表示为均值的百分数,是观测 数据分散性的一个度量,它在比较用不同单位测量 的数据的分散性时是有用的.CV=s ( 标准差 ) 100 % x ( 均值 )5. 表示数据分布形状的统计量偏度(Skewness):描述数据对称性的指标. :描述数据对称性的指标. 偏度 xi x SK 1 s i= 在SAS中,均值对称的数据,其偏度为0;左侧更为 分散的数据,其偏度为负,称为左偏;右侧更为分散 的数据,其偏度为正,称为右偏. 峰度(Kurtosis):描述数据向分布尾段散布的趋势 峰度 描述数据向分布尾段散布的趋势 4 2 n = ( n 1 )( n 2 )3n n(n +1) xi

6、 x 3(n 1) K= s (n 2)(n 3) (n 1)(n 2)(n 3) i=1 利用峰度研究数据分布形状是以正态分布为标准,比 较两端极端数据的分布情况,若 近似于标准正态分布,峰度接近于零;尾部较正态分布更分 散,则峰度为正;尾部较正态分布更集中,则峰度为负 武汉大学计算中心 LOGO正态分布如果数据来自正态分布总体, 如果数据来自正态分布总体,则:68%的值落在距均值 个标准差的范围之内 的值落在距均值1个标准差的范围之内 的值落在距均值 95%的值落在距均值 个标准差的范围之内 的值落在距均值2个标准差的范围之内 的值落在距均值 99%的值落在距均值 个标准差的范围之内 的值

7、落在距均值3个标准差的范围之内 的值落在距均值例如:由12岁女孩体重组成一个总体,这个总 体服从均值为39公斤,标准差4.5公斤,则: 68%的值落在34.543.5公斤之间 95%的值落在3048公斤之间 99%的值落在25.552.5公斤之间概率P(probability) 概率 概率是度量某随机事件发生可能性大 小的一个数量. 概率的取值范围在01之间.若某一事 件必然不发生,P=0;某一事件必然发 生,P=1 概率论是数理统计的基础,统计分析的 许多结论,都是建立在概率大小的基础 之上的.统计的过程如下:总体 抽样 样本 计算 统计量 推断 描述 统计量描述:描述样本的各主要特征 推断

8、:扩大所收集信息的使用范围,用样本的特 征来推断总体的特征. LOGO例儿童体检数据如下 例刘明 蔡行 李敏 李涛 夏天 郭红 胡月 程彬 杨兵 刘进 王苗苗 7 张思凡 7 3 3 4 4 4 5 5 6 6 6 女 女 男 男 女 男 男 女 女 女 男 男 1.16 1.15 0.94 0.91 1.39 1.02 1.06 1.01 1.02 1.07 1.12 1.14 19.93 18.2 13.59 14.2 16.15 15.44 15.3 15.04 15.07 17.04 18.09 18.8 55.5 51.4 50.4 50 51.6 51.9 51 51.9 52.7

9、 53.7 54.1 53.5试用作描述性统计分析二,用SAS/ASSIST进行描述统计 进行描述统计 选择解决方案 选择解决方案/ASSIST,并在欢迎窗口中点击 解决方案 , 按钮 继续 选择Cascading Menu为新的 为新的ASSIST工作 选择 为新的 工作 模式;选择Block Menu为ASSIST 6的菜单 模式;选择 为 的菜单 工作模式. 工作模式. 选择 Data Analysis/Elementary/Summary Statistics 打开数据统计分析的操作窗口 .点击Table按钮,确定要操作的数据集 按钮, 点击 按钮 点击Columns按钮,确定要分析的

10、变量 按钮, 点击 按钮 点击Class按钮,确定分组变量 按钮, 点击 按钮 点击Output Table按钮可将本次分析的结果 点击 按钮可将本次分析的结果 数据输出到一个数据集中作为原始数保存起来 Summary Statistic窗口的下方,确定所求 Statistic窗口的下方 窗口的下方, 的统计量 ,可以根据需要选择一项或多项所求的统计量Number of nonmissing values 包括分析变量缺项值的观测数 Number of missing values 不包括分析变量缺项值的观测数 Minimum 最小值 Maximum 最大值 Range 全距, 全距,极差 S

11、um 和 Mean (平)均值 Variance 方差 Standard Deviation 标准差 Standard error of the mean 均数的标准误 Coefficient of variation 变异系数 Skewness 偏度 Kurtosis 峰度三,用SAS/INSIGHT进行数据描述 进行数据描述1. 用INSIGHT作直方图 作直方图选择解决方案/分析 交互式数据分析 命令启动SAS/INSIGHT 选择解决方案 分析/交互式数据分析 命令启动 分析 软件 确定数据所在的数据集( 确定数据所在的数据集(CLASS) 选择分析 /直方图 条形图(y)项绘制某变量

12、的柱状图 直方图 直方图/条形图 项绘制某变量的柱状图/直方图 直方图 条形图 项绘制某变量的柱状图 将WEIGHT选为Y 再点击确定 若单独考察女生的年龄分布, 若单独考察女生的年龄分布,可在既存的图下作如下操作 编辑/窗口/动画,在弹出的对话框中选SEX中的G即可,若 再点击应用则以动态的方式交替显示不同性别的直方图,拖 动速度处的游标可以调节交替的速度2,用SAS/INSIGHT进行分布检验 , 进行分布检验 解决方案/分析 分析/交互式数据分析 选择解决方案 分析 交互式数据分析命令启动 SAS/INSIGHT软件 软件 确定数据所在的数据集 分布(Y)项绘制某连续变量的盒状图和分布图

13、 选择分析 /分布 分布 项绘制某连续变量的盒状图和分布图 在分布(Y)对话框右侧的列表框中选择 对话框右侧的列表框中选择WEIGHT变量,单击 变量, 在分布 对话框右侧的列表框中选择 变量 按钮 按钮 单击按钮 单击 输出 按钮,选累积分布 分布检验下方选择正态 在分布检验 在置信带下选95%置信水平 在置信带下选 置信水平依次点击 确定2,用SAS/INSIGHT进行分布检验 , 进行分布检验在显示的图形中,中间是经验分布曲线,两侧的是 在显示的图形中,中间是经验分布曲线, 置信限 . 置信水平可用鼠标拖动改变. 置信水平可用鼠标拖动改变. 检验结果汇总在下方的分布检验表中 并提供了统计

14、量的数值及相应的检验概率值: 并提供了统计量的数值及相应的检验概率值:原假 设为总体分布为正态的. 设为总体分布为正态的. 本例相应的p值 本例相应的 值0.150.05=.所以无法拒绝 . 原假设, 原假设,可以接受总体分布为正态的用分析家作频数统计选择解决方案 分析 分析家 分析/分析家 选择解决方案/分析 分析家进入分析家环境 点击文件/按 名称打开 点击文件 按SAS名称打开打开数据集 名称打开 点击统计/描述性统计 频数统计 在弹出的对 描述性统计/频数统计 点击统计 描述性统计 频数统计,在弹出的对 话框中: 话框中: AGE=Frequencies,Sex=Frequencies

15、 点击OK用程序作基本统计分析 SAS提供有多个不同的过程来实现统计量的计 算,它们在功能范围上有许多的重复,下面介 绍用FREQ,MEANS和UNIVARIATE这三个 过程来计算简单的描述统计量. FREQ过程常用来计算分类变量取值的频数, 而MEANS和UNIVARIATE过程则对数值型变 量计算均值,标准差等统计量.用程序作基本统计分析Proc freq data=数据集名 选项 ; 选项; 数据集名 选项 tables 变量名列表 选项 ; 变量名列表/选项 选项; Run;Tables语句中的选项: 语句中的选项: 语句中的选项 nocum不要累计的频数和百分数 不要累计的频数和百

16、分数 nopercent-不要百分数和累计的百分数 不要百分数和累计的百分数 Proc freq语句中的选项: 语句中的选项 order=internal按变量值排序 按变量值排序 freq按频数降序排序 按频数降序排序 data按数据集中的值的次序排序 按数据集中的值的次序排序 formatted按变量格式化的值排序 按变量格式化的值排序例 例1Proc freq data=temp.class order=freq; tables age;2 tables w;可见,数据的统计意义不大.但是若将体重数据分组显示 频数,是有意义的MEANS过程 2. MEANS过程 (1) 语法格式 MEA

17、NS过程的一般格式: 过程的一般格式: 过程的一般格式 PROC MEANS DATA=; VAR ; BY CLASS RUN;PROC MEANS语句后的选项主要用来指定所 语句后的选项主要用来指定所 要计算的统计量,默认情况下, 要计算的统计量,默认情况下,MEANS过程会 过程会 给出频数,均数,标准差,最大值和最小值等, 给出频数,均数,标准差,最大值和最小值等, 其余统计量的计算均需要在选项中指定. 其余统计量的计算均需要在选项中指定. VAR语句引导所要进行分析的所有变量的列 语句引导所要进行分析的所有变量的列 将对VAR语句所引导的所有变量分别 表,SAS将对 将对 语句所引导

18、的所有变量分别 进行描述性统计分析. 进行描述性统计分析. BY语句与 语句与CLASS语句所指定的分类变量用来 语句与 语句所指定的分类变量用来 进行分组统计,但输出格式不同. 进行分组统计,但输出格式不同. 武汉大学计算中心如对数据集class中的 中的hight变量计算简单统计量, 变量计算简单统计量, 如对数据集 中的 变量计算简单统计量 只要用如下MEANS过程: 过程: 只要用如下 过程 proc means data = class; var hight; run; (2) 使用统计量关键字列表 在PROC MEANS语句中使用统计量关键字列表: 语句中使用统计量关键字列表: 语

19、句中使用统计量关键字列表 proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; 可以计算的描述性统计量关键字及其含义见下表. 可以计算的描述性统计量关键字及其含义见下表.关键字 n nmiss mean std stderr var median mode cv max min sum sumwgt css uss 所代表的含义 有效数据记录数 缺失数据记录数 均值 标准差 标准误 方差 中位数 众数 变异系数 最大值 最小值 总计 加权值总计 校正平方和 未校正平方和关键字 range skewness kurt

20、osis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99所代表的含义 极差 偏度 峰度 分布位置假设检验之t统计量 上述t统计量对应的概率值 第一四分位数 第三四分位数 四分位数间距 第一百分位数 第五百分位数 第十百分位数 第九十百分位数 第九十五百分位数 第九十九百分位数 (3) 使用 使用CLASS语句和 语句 语句和BY语句 语句和 使用CLASS语句和 语句可以分组计算分析 语句和BY语句可以分组计算分析 使用 语句和 变量的描述统计量值, 语句和BY语句 变量的描述统计量值,由CLASS语句和 语句 语句和 指定的变量在分析中起分组( 的作用,

21、 指定的变量在分析中起分组(类)的作用,被称 为分类变量.两个语句的区别是: 为分类变量.两个语句的区别是: 使用BY语句时要求数据集须按 语句时要求数据集须按BY变量排 使用BY语句时要求数据集须按BY变量排 使用CLASS语句无此要求. 语句无此要求. 序,使用 语句无此要求 使用BY语句时输出按 语句时输出按BY变量的每个值分 使用 语句时输出按 变量的每个值分 别提供一个表,使用CLASS语句则将所有结果 别提供一个表,使用 语句则将所有结果 排列在一个表之中. 排列在一个表之中.使用BY语句之前先排序, 使用 语句之前先排序,如下代码可以在上 语句之前先排序 例中按变量sex分组统计

22、: 分组统计: 例中按变量 分组统计 proc sort data = class; by sex;使用CLASS语句分组较为简单,如下代码也可以 语句分组较为简单, 使用 语句分组较为简单 在上例中按变量sex分组统计: 在上例中按变量 分组统计 class sex; RUN;UNIVARIATE过程 3. UNIVARIATE过程 UNIVARIATE过程的一般格式为: 过程的一般格式为: 过程的一般格式为 PROC UNIVARIATE DATA = BY | CLASS HISTOGRAM / OUTPUT OUT = = UNIVARIATE过程和 过程和MEANS过程的格式非常 过

23、程的格式非常 过程和 相似,相同的语句和选项其含义也相同, 相似,相同的语句和选项其含义也相同,所不同 的是某些统计量只能在UNIVARIATE过程中计 的是某些统计量只能在 过程中计 如众数),而且UNIVARIATE过程中具有 ),而且 算(如众数),而且 过程中具有 绘图功能. 绘图功能. 其中, 语句用来指示SAS对其 其中,HISTOGRAM语句用来指示 语句用来指示 对其 后所指定的变量绘制直方图, 后所指定的变量绘制直方图,其后的选项用来指 添加不同类型的拟合图形( 示SAS添加不同类型的拟合图形(如正态分布 添加不同类型的拟合图形 的分布密度曲线). 的分布密度曲线).输出包括

24、五个部分. 输出包括五个部分. 第一部分是各统计量. 第一部分是各统计量. 第二部分为基本的位置和分散程度统计量, 第二部分为基本的位置和分散程度统计量, 位置统计量包括均值,中位数,众数, 位置统计量包括均值,中位数,众数,分散程度 统计量包括标准差,方差,极差, 统计量包括标准差,方差,极差,四分位间距 第三部分为关于均值等于零的三种检验的结 包括t检验 符号检验和符号秩检验. 检验, 果,包括 检验,符号检验和符号秩检验. 第四部分为各个重要的分位数. 第四部分为各个重要的分位数. 第五部分是观测数据的五个最低值和五个最 高值. 高值. 六,FORMAT过程 过程FORMAT过程用于定义

25、变量的输出格式. 定义: PROC FORMAT; VALUE 格式变量名 分组形式; 其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式 名. 引用: PROC 过程名 DATA=数据集名; 过程语句; FORMAT 数据集中的变量名 格式名.;3Proc format; Value wfmt low-32=24-32 32-40=32-40 40-48=4048 48-56=48-56 56-64=56-64 64-72=64-72 72high=72- Proc print data=temp.class; Format w wfmt.; 若没有该语句 数据集中的 数据仍按原始显示 若没有该语句,数据集中的 数据集中的W数据仍按原始显示 Run;4上机作业1.下列数据为两个

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1