数据的初步分析R软件Word格式.docx

资源描述

数据的初步分析R软件Word格式.docx

《数据的初步分析R软件Word格式.docx》由会员分享，可在线阅读，更多相关《数据的初步分析R软件Word格式.docx（23页珍藏版）》请在冰豆网上搜索。

数据的初步分析R软件Word格式.docx

变异系数是刻画数据相对分散性的一种度量

是一个无量纲的量，用百分数表示。

3.分布形状的度量

数据分布形状的度量包括偏度系数和峰度系数。

偏度系数：

计算公式为

.偏度系数是刻画数据的对称性指标。

关于均值对称的数据偏度系数为0.数据左偏时，对称系数为正，右偏时为负。

峰度系数：

计算公式

.来自正态总体的数据峰度近似为0；

如果样本数据的峰度大于0，则该数据的总体分布比正太分布的尾部更分散；

如果一个样本数据的峰度小于0，则总体分布较正太分布更集中。

四、实验背景

某灯泡生产厂商测试某种新型灯泡的燃烧寿命，如下数据表格列出了200个灯泡样本的可使用小时数。

107

103

116

101

102

计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

五、实验过程

1.读入数据。

首先通过R软件中的read.table（）命令来读入实验数据（也可以通过函数scan（）来读入数据）。

以本实验为例，我们假定数据的存储路径为：

\非参数实验教材\教材\第一章描述性统计分析，数据名称为”测试.txt”,则具体读入过程如下：

-read.table（"

\\非参数实验教材\\教材\\第一章描述性统计分析\\测试.txt"

）

x=t（x）

2.均值。

读入数据后，可以通过”mean（）”这一函数求数据的均值，记为x.mean，过程如下：

x.mean=mean（x）;

x.mean

[1]76.05

3.数据排序。

在R软件中，对原始数据进行排序，可以通过”sort（）”函数（具体用法可以参考help文件）对数据进行排序，例如，分别对数据进行降序和升序排列，过程如下：

sort（x,decreasing=T）

[1]11610710310210199989898979696969494949493

[19]939292929292919090898989898989888888

[37]888887878686868685858585858484848484

[55]838383838382828282818181818181808080

[73]797979797979797878787878787777777777

[91]777777777676767676767575757575757474

[109]747474747373737373737272727272727171

[127]717171717171707070706969686868686868

[145]686867676767666666666666656565656565

[163]656564646464636363636363626262626262

[181]626261616161616059595959595858575451

[199]4543

sort（x,decreasing=F）

[1]434551545758585959595959606161616161

[19]626262626262626263636363636364646464

[37]656565656565656566666666666667676767

[55]686868686868686869697070707071717171

[73]717171717272727272727373737373737474

[91]747474747575757575757676767676767777

[109]777777777777777878787878787979797979

[127]797980808081818181818182828282838383

[145]838384848484848585858585868686868787

[163]888888888889898989898990909192929292

[181]929393949494949696969798989899101102103

[199]107116

4.中位数。

在R软件中，求数据中位数的命令函数为median（），可以通过以下命令求中位数。

median（x）

[1]75.5

5.分位数。

求分位数的函数命令为quantile（），我们可以通过quantile（）求某一个具体的分位点值，也可以同时求多个分位点值，例如

quantile（x）

0%25%50%75%100%

43.0066.7575.5084.00116.00

quantile（x,0.05）

quantile（w,probs=seq（0,1,0.2））

0%20%40%60%80%100%

47.4056.9862.2064.0067.3275.00

6.方差和标准差。

在R软件中求方差和标准差的命令函数为var（）和sd（），通过这两个命令可以很容易的求出数据的方差、标准差。

具体如下：

var（x）

[1]145.4548

sd（x）

[1]12.06046

7.变异系数、峰度和偏度。

在R软件中没有专门的函数用来求数据的变异系数、峰度以及偏度，不过我们可以根据公式，自己编写命令或函数来求这些统计量的值。

例如，变异系数可以通过以下命令求得：

cv=100*sd（x）/mean（x）;

[1]15.8586

而样本数据的峰度和偏度可以通过以下命令求得：

-length（x）

-mean（x）

-sd（x）

g1<

-n/（（n-1）*（n-2））*sum（（x-m）^3）/s^3

g2<

-（（n*（n+1））/（（n-1）*（n-2）*（n-3））*sum（（x-m）^4）/s^4-（3*（n-1）^2）/（（n-2）*（n-3）））

我们也可以编写一个完整的函数来将以上所有特征统计量求出来，以下给出了一个简单的函数（具体见附录），用法如下：

data.outline（x）

NMeanV1std_devMedianstd_meanCVCSSUSSR

120076.05145.454812.0604675.50.852803515.858628945.5118566673

R1SkewnessKurtosis

117.250.27702750.03557146

六、练习实验

1.以下数据为非洲44个国家的人均收入（单位为美元）：

1890.00

640.00

660.00

320.00

290.00

1870.00

7480.00

740.00

1490.00

100.00

430.00

170.00

200.00

150.00

380.00

440.00

260.00

190.00

140.00

2780.00

3430.00

250.00

90.00

390.00

220.00

1350.00

300.00

450.00

3580.00

590.00

4090.00

310.00

130.00

210.00

550.00

240.00

2.以下数据为福布斯杂志的全球最好的125个公司的利润数据（单位为美元）：

10.93

4.08

1.46

0.91

0.73

0.84

0.86

0.56

0.42

0.30

8.75

2.77

1.02

1.36

0.67

0.54

0.39

0.41

5.89

2.78

1.61

0.88

1.08

0.47

0.49

0.32

0.22

0.28

12.43

1.49

1.13

0.59

0.43

0.46

0.34

4.54

2.31

2.43

1.54

1.14

0.52

0.35

0.25

3.54

1.83

0.87

0.63

0.44

0.51

0.81

0.27

0.24

1.80

1.68

1.07

1.11

0.45

0.38

0.26

3.30

3.67

2.85

1.90

0.37

0.31

0.23

5.09

3.23

0.93

0.55

0.15

2.46

1.03

0.33

3.34

1.48

1.77

0.29

3.55

1.58

0.75

0.60

0.20

2.63

1.53

1.26

1.00

0.16

附录：

data_outline<

-function（x）{

-var（x）

me<

-median（x）

cv<

-100*s/m

data.frame（N=n,Mean=m,Var=v,std.dev=s,

Median=me,CV=cv,Skewness=g1,Kurtosis=g2,row.names=1）

}

实验二数据分布

掌握判断样本数据是否来自正太总体的方法；

对于给定的样本数据，会通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。

通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。

想要了解样本数据的总体分布情况，仅有特征统计量是不够的，还需要研究数据的分布。

而研究数据的总体分布的一个主要问题就是想知道数据是否来自于某一个正太总体，也就是所谓的分布的正态性检验问题。

研究这一问题常用到的方法包括直方图、经验分布图Q-Q图以及下一个实验内容所包括的茎叶图、箱线图等

直方图：

直方图是一种二维统计图表，它的两个坐标分别是统计样本和该样本对应的某个属性的度量。

直方图是用面积而非高度来表示数量。

直方图由一组块形组成，每一个块形的面积表示在相应的小组区间中事例的百分数。

采用密度尺度，每一个块形的高度等于相应小组区间中事例的百分数除以该区间的长度。

其面积呈现为百分数，总面积为100%。

直方图下两个数值之间的面积给出了落在那个区间内的事件的百分数。

经验分布图：

直方图的制作适合于总体为连续分布的场合。

对于一般的总体分布，若要估计它的总体分布函数，可以采用经验分布函数。

经验分布函数是指根据样本构造的概率分布函数.设

为一组样本,定义函数

表示样本中小于或者等于

的样本个数,则称函数

为样本

为的经验分布函数.

Q-Q图：

Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.用QQ图还可获得样本偏度和峰度的粗略信息.

Q-Q图可以用于检验数据的分布，所不同的是，Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。

根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。

数据的读入可以参见实验一，这里不再重复。

1.直方图。

软件中直方图的命令为hist（）（具体可以参考R软件文档），如果不输入其它参数，则可以采取默认分组，具体为

hist（x）

也可以指定分组、颜色等其它参数，例如

hist（x,breaks=15）

在本实验中，为了观察数据的分布特征，以及判断数据是否来自正太总体，可以同时绘出直方图和密度估计曲线和正太分布的概率密度曲线进行比较。

hist（x,freq=FALSE）

lines（density（x）,col="

blue"

-min（x）:

max（x）

lines（w,dnorm（w,mean（x）,sd（x））,col="

red"

2.经验分布图。

在这一实验中，我们同样可以通过绘出200个灯泡使用时间的经验分布图和相应的正态分布图来进行比较，以判断数据是否来自于正太总体，例如

plot（ecdf（x）,verticals=TRUE,do.p=FALSE）

lines（w,pnorm（w,mean（x）,sd（x）））

3.QQ图。

QQ图同样可以用来判断数据的总体情况，画出数据的正态QQ图和正太QQ曲线，判断样本是否来自正态总体，过程如下：

qqnorm（x）;

qqline（x）

七、练习实验

展开阅读全文