ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:104.94KB ,
资源ID:8558213      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8558213.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据的初步分析R软件.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据的初步分析R软件.docx

1、数据的初步分析R软件第一章数据的初步分析 一个数据可能有很多变量和观测值,这些变量和观测值可以通过一些简单的表格、图形以及少数的特征统计量来进行描述。这些方法在统计学中称为描述性统计分析方法,其目的在于帮助我们整理、展示数据,使得我们可以了解数据的特征,进而为进一步的统计推断做好准备。 通过计算机软件做数据的描述性分析,可以使我们更加直观、便捷地了解数据特征,有利于对统计描述的理解。本章的实验重点是介绍如何运用R软件来对数据进行描述性分析,并掌握描述性统计的基本方法和概念。实验一 数据的统计量描述一、实验目的初步了解数据的特点、分布形状;熟悉R软件的程序结构;学会使用R软件计算数据的描述统计量

2、。二、实验内容掌握通过R软件读入或输入数据,并能够计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。三、准备知识1.位置的度量所谓位置的度量就是那些用来描述数据集中趋势的统计量。常用的有均值、众数、中位数、百分位数等。平均数(Mean):中位数(Median):一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数,即 中位数描述的是数据的中心位置不受数据分布的影响,具有稳健性,是数据分析中相当重要的统计量。众数(Mode):在一组数据中,出现次数最多的那个数据。百分位数:百分位数是中位数的推广。将数据按从小到大排序后,对于,它的分位点定义为其中np

3、为np的整数部分。2.离散趋势度量表示数据分散或变异程度的特征统计量,常用的有方差、标准差、变异系数等样本方差(Sample Variance):描述数据取值分散性的一个度量,即样本标准差(Standard Deviation):样本方差的开方,即变异系数(CV):变异系数是刻画数据相对分散性的一种度量是一个无量纲的量,用百分数表示。3.分布形状的度量数据分布形状的度量包括偏度系数和峰度系数。偏度系数:计算公式为.偏度系数是刻画数据的对称性指标。关于均值对称的数据偏度系数为0.数据左偏时,对称系数为正,右偏时为负。峰度系数:计算公式.来自正态总体的数据峰度近似为0;如果样本数据的峰度大于0,则

4、该数据的总体分布比正太分布的尾部更分散;如果一个样本数据的峰度小于0,则总体分布较正太分布更集中。四、实验背景某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。1077368977679945998577998636566627986687464797879778689767485927888771038863688881747085616581756294719361656292656466837078666694776366756876617177919675647672778171859959929462687285678780849369768

5、97573815465718084886261618265986371621166588738068788972586982726473759062897171747085848363926881627983708177728467595873837376907871101784359677465828679746686968977608784757751456310259778368726792898296计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。五、实验过程1. 读入数据。首先通过R软件中的read.table()命令来读入实验数据(也可以通过函数sc

6、an()来读入数据)。以本实验为例,我们假定数据的存储路径为:I:非参数实验教材教材第一章 描述性统计分析,数据名称为”测试.txt”,则具体读入过程如下: x x=t(x)2. 均值。读入数据后,可以通过”mean()”这一函数求数据的均值,记为x.mean,过程如下: x.mean=mean(x);x.mean1 76.053. 数据排序。在R软件中,对原始数据进行排序,可以通过”sort()”函数(具体用法可以参考help文件)对数据进行排序,例如,分别对数据进行降序和升序排列,过程如下: sort(x,decreasing=T) 1 116 107 103 102 101 99 98

7、98 98 97 96 96 96 94 94 94 94 93 19 93 92 92 92 92 92 91 90 90 89 89 89 89 89 89 88 88 88 37 88 88 87 87 86 86 86 86 85 85 85 85 85 84 84 84 84 84 55 83 83 83 83 83 82 82 82 82 81 81 81 81 81 81 80 80 80 73 79 79 79 79 79 79 79 78 78 78 78 78 78 77 77 77 77 77 91 77 77 77 77 76 76 76 76 76 76 75 75

8、75 75 75 75 74 74109 74 74 74 74 73 73 73 73 73 73 72 72 72 72 72 72 71 71127 71 71 71 71 71 71 70 70 70 70 69 69 68 68 68 68 68 68145 68 68 67 67 67 67 66 66 66 66 66 66 65 65 65 65 65 65163 65 65 64 64 64 64 63 63 63 63 63 63 62 62 62 62 62 62181 62 62 61 61 61 61 61 60 59 59 59 59 59 58 58 57 54

9、51199 45 43 sort(x,decreasing=F) 1 43 45 51 54 57 58 58 59 59 59 59 59 60 61 61 61 61 61 19 62 62 62 62 62 62 62 62 63 63 63 63 63 63 64 64 64 64 37 65 65 65 65 65 65 65 65 66 66 66 66 66 66 67 67 67 67 55 68 68 68 68 68 68 68 68 69 69 70 70 70 70 71 71 71 71 73 71 71 71 71 72 72 72 72 72 72 73 73 7

10、3 73 73 73 74 74 91 74 74 74 74 75 75 75 75 75 75 76 76 76 76 76 76 77 77109 77 77 77 77 77 77 77 78 78 78 78 78 78 79 79 79 79 79127 79 79 80 80 80 81 81 81 81 81 81 82 82 82 82 83 83 83145 83 83 84 84 84 84 84 85 85 85 85 85 86 86 86 86 87 87163 88 88 88 88 88 89 89 89 89 89 89 90 90 91 92 92 92 9

11、2181 92 93 93 94 94 94 94 96 96 96 97 98 98 98 99 101 102 103199 107 1164. 中位数。在R软件中,求数据中位数的命令函数为median(),可以通过以下命令求中位数。 median(x)1 75.55. 分位数。求分位数的函数命令为quantile(),我们可以通过quantile()求某一个具体的分位点值,也可以同时求多个分位点值,例如 quantile(x) 0% 25% 50% 75% 100% 43.00 66.75 75.50 84.00 116.00 quantile(x,0.05)5% 59 quantile

12、(w, probs = seq(0, 1, 0.2)0% 20% 40% 60% 80% 100%47.40 56.98 62.20 64.00 67.32 75.006. 方差和标准差。在R软件中求方差和标准差的命令函数为var()和sd(),通过这两个命令可以很容易的求出数据的方差、标准差。具体如下: var(x)1 145.4548 sd(x)1 12.060467. 变异系数、峰度和偏度。在R软件中没有专门的函数用来求数据的变异系数、峰度以及偏度,不过我们可以根据公式,自己编写命令或函数来求这些统计量的值。例如,变异系数可以通过以下命令求得: cv=100*sd(x)/mean(x);

13、 cv1 15.8586而样本数据的峰度和偏度可以通过以下命令求得:n- length(x)m - mean(x)s - sd(x)g1 - n/(n-1)*(n-2)*sum(x-m)3)/s3g2 data.outline(x) N Mean V1 std_dev Median std_mean CV CSS USS R1 200 76.05 145.4548 12.06046 75.5 0.8528035 15.8586 28945.5 1185666 73 R1 Skewness Kurtosis1 17.25 0.2770275 0.03557146六、练习实验1.以下数据为非洲44

14、个国家的人均收入(单位为美元):1890.00640.00660.00320.00290.001870.007480.00290.00740.001490.00100.00430.00170.00200.00150.00380.00440.00260.00190.00140.00290.00320.002780.003430.00250.0090.00390.00430.00220.001350.00300.00450.003580.00590.004090.00320.00310.00100.00640.00310.00130.00210.00550.00240.00计算数据集的均值、中位数

15、、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。2.以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元):10.934.081.460.910.730.840.860.560.420.308.752.771.021.360.670.540.390.410.390.415.892.781.610.881.080.470.490.320.220.2812.432.771.491.130.590.430.460.410.300.344.542.312.431.541.140.520.280.430.350.253.541.830.870.630.440.510.810.420

16、.270.241.801.681.070.730.841.110.280.450.380.263.303.672.851.900.520.370.310.370.270.235.093.230.911.360.930.550.390.230.152.460.550.931.031.070.550.470.330.333.341.481.770.340.290.420.250.390.313.551.580.871.080.340.750.600.200.242.631.530.910.911.261.000.420.430.16计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数

17、以及峰度系数。附录:data_outline -function(x)n- length(x)m - mean(x)v - var(x)s - sd(x)me - median(x)cv - 100*s/mg1 - n/(n-1)*(n-2)*sum(x-m)3)/s3g2 hist(x)也可以指定分组、颜色等其它参数,例如 hist(x,breaks=15)在本实验中,为了观察数据的分布特征,以及判断数据是否来自正太总体,可以同时绘出直方图和密度估计曲线和正太分布的概率密度曲线进行比较。 hist(x, freq = FALSE) lines(density(x), col = blue)

18、w lines(w, dnorm(w, mean(x), sd(x), col = red)2.经验分布图。在这一实验中,我们同样可以通过绘出200个灯泡使用时间的经验分布图和相应的正态分布图来进行比较,以判断数据是否来自于正太总体,例如 plot(ecdf(x),verticals = TRUE, do.p = FALSE) w lines(w, pnorm(w, mean(x), sd(x)3. QQ图。QQ图同样可以用来判断数据的总体情况,画出数据的正态QQ图和正太QQ曲线,判断样本是否来自正态总体,过程如下: qqnorm(x);qqline(x)七、练习实验1.以下数据为非洲44个国

19、家的人均收入(单位为美元):1890.00640.00660.00320.00290.001870.007480.00290.00740.001490.00100.00430.00170.00200.00150.00380.00440.00260.00190.00140.00290.00320.002780.003430.00250.0090.00390.00430.00220.001350.00300.00450.003580.00590.004090.00320.00310.00100.00640.00310.00130.00210.00550.00240.00计算数据集的均值、中位数、分

20、位数、方差、标准差、变异系数、偏度系数以及峰度系数。2.以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元):10.934.081.460.910.730.840.860.560.420.308.752.771.021.360.670.540.390.410.390.415.892.781.610.881.080.470.490.320.220.2812.432.771.491.130.590.430.460.410.300.344.542.312.431.541.140.520.280.430.350.253.541.830.870.630.440.510.810.420.270.241.801.681.070.730.841.110.280.450.380.263.303.672.851.900.520.370.310.370.270.235.093.230.911.360.930.550.390.230.152.460.550.931.031.070.550.470.330.333.341.481.770.340.290.420.250.390.313.55

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1