数据的初步分析R软件.docx

上传人:b****6 文档编号:8558213 上传时间:2023-01-31 格式:DOCX 页数:23 大小:104.94KB
下载 相关 举报
数据的初步分析R软件.docx_第1页
第1页 / 共23页
数据的初步分析R软件.docx_第2页
第2页 / 共23页
数据的初步分析R软件.docx_第3页
第3页 / 共23页
数据的初步分析R软件.docx_第4页
第4页 / 共23页
数据的初步分析R软件.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

数据的初步分析R软件.docx

《数据的初步分析R软件.docx》由会员分享,可在线阅读,更多相关《数据的初步分析R软件.docx(23页珍藏版)》请在冰豆网上搜索。

数据的初步分析R软件.docx

数据的初步分析R软件

第一章数据的初步分析

一个数据可能有很多变量和观测值,这些变量和观测值可以通过一些简单的表格、图形以及少数的特征统计量来进行描述。

这些方法在统计学中称为描述性统计分析方法,其目的在于帮助我们整理、展示数据,使得我们可以了解数据的特征,进而为进一步的统计推断做好准备。

通过计算机软件做数据的描述性分析,可以使我们更加直观、便捷地了解数据特征,有利于对统计描述的理解。

本章的实验重点是介绍如何运用R软件来对数据进行描述性分析,并掌握描述性统计的基本方法和概念。

实验一数据的统计量描述

一、实验目的

初步了解数据的特点、分布形状;熟悉R软件的程序结构;学会使用R软件计算数据的描述统计量。

二、实验内容

掌握通过R软件读入或输入数据,并能够计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

三、准备知识

1.位置的度量

所谓位置的度量就是那些用来描述数据集中趋势的统计量。

常用的有均值、众数、中位数、百分位数等。

平均数(Mean):

中位数(Median):

一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数,即

中位数描述的是数据的中心位置不受数据分布的影响,具有稳健性,是数据分析中相当重要的统计量。

众数(Mode):

在一组数据中,出现次数最多的那个数据。

百分位数:

百分位数是中位数的推广。

将数据按从小到大排序后,对于

,它的分位点定义为

其中[np]为np的整数部分。

2.离散趋势度量

表示数据分散或变异程度的特征统计量,常用的有方差、标准差、变异系数等

样本方差

(SampleVariance):

描述数据取值分散性的一个度量,即

样本标准差

(StandardDeviation):

样本方差的开方,即

变异系数(CV):

变异系数是刻画数据相对分散性的一种度量

是一个无量纲的量,用百分数表示。

3.分布形状的度量

数据分布形状的度量包括偏度系数和峰度系数。

偏度系数:

计算公式为

.偏度系数是刻画数据的对称性指标。

关于均值对称的数据偏度系数为0.数据左偏时,对称系数为正,右偏时为负。

峰度系数:

计算公式

.来自正态总体的数据峰度近似为0;如果样本数据的峰度大于0,则该数据的总体分布比正太分布的尾部更分散;如果一个样本数据的峰度小于0,则总体分布较正太分布更集中。

四、实验背景

某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。

107

73

68

97

76

79

94

59

98

57

79

98

63

65

66

62

79

86

68

74

64

79

78

79

77

86

89

76

74

85

92

78

88

77

103

88

63

68

88

81

74

70

85

61

65

81

75

62

94

71

93

61

65

62

92

65

64

66

83

70

78

66

66

94

77

63

66

75

68

76

61

71

77

91

96

75

64

76

72

77

81

71

85

99

59

92

94

62

68

72

85

67

87

80

84

93

69

76

89

75

73

81

54

65

71

80

84

88

62

61

61

82

65

98

63

71

62

116

65

88

73

80

68

78

89

72

58

69

82

72

64

73

75

90

62

89

71

71

74

70

85

84

83

63

92

68

81

62

79

83

70

81

77

72

84

67

59

58

73

83

73

76

90

78

71

101

78

43

59

67

74

65

82

86

79

74

66

86

96

89

77

60

87

84

75

77

51

45

63

102

59

77

83

68

72

67

92

89

82

96

计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

五、实验过程

1.读入数据。

首先通过R软件中的read.table()命令来读入实验数据(也可以通过函数scan()来读入数据)。

以本实验为例,我们假定数据的存储路径为:

I:

\非参数实验教材\教材\第一章描述性统计分析,数据名称为”测试.txt”,则具体读入过程如下:

>x<-read.table("I:

\\非参数实验教材\\教材\\第一章描述性统计分析\\测试.txt")

>x=t(x)

2.均值。

读入数据后,可以通过”mean()”这一函数求数据的均值,记为x.mean,过程如下:

>x.mean=mean(x);x.mean

[1]76.05

3.数据排序。

在R软件中,对原始数据进行排序,可以通过”sort()”函数(具体用法可以参考help文件)对数据进行排序,例如,分别对数据进行降序和升序排列,过程如下:

>sort(x,decreasing=T)

[1]11610710310210199989898979696969494949493

[19]939292929292919090898989898989888888

[37]888887878686868685858585858484848484

[55]838383838382828282818181818181808080

[73]797979797979797878787878787777777777

[91]777777777676767676767575757575757474

[109]747474747373737373737272727272727171

[127]717171717171707070706969686868686868

[145]686867676767666666666666656565656565

[163]656564646464636363636363626262626262

[181]626261616161616059595959595858575451

[199]4543

>sort(x,decreasing=F)

[1]434551545758585959595959606161616161

[19]626262626262626263636363636364646464

[37]656565656565656566666666666667676767

[55]686868686868686869697070707071717171

[73]717171717272727272727373737373737474

[91]747474747575757575757676767676767777

[109]777777777777777878787878787979797979

[127]797980808081818181818182828282838383

[145]838384848484848585858585868686868787

[163]888888888889898989898990909192929292

[181]929393949494949696969798989899101102103

[199]107116

4.中位数。

在R软件中,求数据中位数的命令函数为median(),可以通过以下命令求中位数。

>median(x)

[1]75.5

5.分位数。

求分位数的函数命令为quantile(),我们可以通过quantile()求某一个具体的分位点值,也可以同时求多个分位点值,例如

>quantile(x)

0%25%50%75%100%

43.0066.7575.5084.00116.00

>quantile(x,0.05)

5%

59

>quantile(w,probs=seq(0,1,0.2))

0%20%40%60%80%100%

47.4056.9862.2064.0067.3275.00

6.方差和标准差。

在R软件中求方差和标准差的命令函数为var()和sd(),通过这两个命令可以很容易的求出数据的方差、标准差。

具体如下:

>var(x)

[1]145.4548

>sd(x)

[1]12.06046

7.变异系数、峰度和偏度。

在R软件中没有专门的函数用来求数据的变异系数、峰度以及偏度,不过我们可以根据公式,自己编写命令或函数来求这些统计量的值。

例如,变异系数可以通过以下命令求得:

>cv=100*sd(x)/mean(x);cv

[1]15.8586

而样本数据的峰度和偏度可以通过以下命令求得:

n<-length(x)

m<-mean(x)

s<-sd(x)

g1<-n/((n-1)*(n-2))*sum((x-m)^3)/s^3

g2<-((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4-(3*(n-1)^2)/((n-2)*(n-3)))

我们也可以编写一个完整的函数来将以上所有特征统计量求出来,以下给出了一个简单的函数(具体见附录),用法如下:

>data.outline(x)

NMeanV1std_devMedianstd_meanCVCSSUSSR

120076.05145.454812.0604675.50.852803515.858628945.5118566673

R1SkewnessKurtosis

117.250.27702750.03557146

六、练习实验

1.以下数据为非洲44个国家的人均收入(单位为美元):

1890.00

640.00

660.00

320.00

290.00

1870.00

7480.00

290.00

740.00

1490.00

100.00

430.00

170.00

200.00

150.00

380.00

440.00

260.00

190.00

140.00

290.00

320.00

2780.00

3430.00

250.00

90.00

390.00

430.00

220.00

1350.00

300.00

450.00

3580.00

590.00

4090.00

320.00

310.00

100.00

640.00

310.00

130.00

210.00

550.00

240.00

计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

2.以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元):

10.93

4.08

1.46

0.91

0.73

0.84

0.86

0.56

0.42

0.30

8.75

2.77

1.02

1.36

0.67

0.54

0.39

0.41

0.39

0.41

5.89

2.78

1.61

0.88

1.08

0.47

0.49

0.32

0.22

0.28

12.43

2.77

1.49

1.13

0.59

0.43

0.46

0.41

0.30

0.34

4.54

2.31

2.43

1.54

1.14

0.52

0.28

0.43

0.35

0.25

3.54

1.83

0.87

0.63

0.44

0.51

0.81

0.42

0.27

0.24

1.80

1.68

1.07

0.73

0.84

1.11

0.28

0.45

0.38

0.26

3.30

3.67

2.85

1.90

0.52

0.37

0.31

0.37

0.27

0.23

5.09

3.23

0.91

1.36

0.93

0.55

0.39

0.23

0.15

2.46

0.55

0.93

1.03

1.07

0.55

0.47

0.33

0.33

3.34

1.48

1.77

0.34

0.29

0.42

0.25

0.39

0.31

3.55

1.58

0.87

1.08

0.34

0.75

0.60

0.20

0.24

2.63

1.53

0.91

0.91

1.26

1.00

0.42

0.43

0.16

计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

附录:

data_outline<-function(x){

n<-length(x)

m<-mean(x)

v<-var(x)

s<-sd(x)

me<-median(x)

cv<-100*s/m

g1<-n/((n-1)*(n-2))*sum((x-m)^3)/s^3

g2<-((n*(n+1))/((n-1)*(n-2)*(n-3))*sum((x-m)^4)/s^4-(3*(n-1)^2)/((n-2)*(n-3)))

data.frame(N=n,Mean=m,Var=v,std.dev=s,

Median=me,CV=cv,Skewness=g1,Kurtosis=g2,row.names=1)

}

 

实验二数据分布

一、实验目的

掌握判断样本数据是否来自正太总体的方法;对于给定的样本数据,会通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。

二、实验内容

通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。

三、准备知识

想要了解样本数据的总体分布情况,仅有特征统计量是不够的,还需要研究数据的分布。

而研究数据的总体分布的一个主要问题就是想知道数据是否来自于某一个正太总体,也就是所谓的分布的正态性检验问题。

研究这一问题常用到的方法包括直方图、经验分布图Q-Q图以及下一个实验内容所包括的茎叶图、箱线图等

直方图:

直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。

直方图是用面积而非高度来表示数量。

直方图由一组块形组成,每一个块形的面积表示在相应的小组区间中事例的百分数。

采用密度尺度,每一个块形的高度等于相应小组区间中事例的百分数除以该区间的长度。

其面积呈现为百分数,总面积为100%。

直方图下两个数值之间的面积给出了落在那个区间内的事件的百分数。

经验分布图:

直方图的制作适合于总体为连续分布的场合。

对于一般的总体分布,若要估计它的总体分布函数,可以采用经验分布函数。

经验分布函数是指根据样本构造的概率分布函数.设

为一组样本,定义函数

表示样本中小于或者等于

的样本个数,则称函数

为样本

为的经验分布函数.

Q-Q图:

Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.用QQ图还可获得样本偏度和峰度的粗略信息.

Q-Q图可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。

四、实验背景

某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。

107

73

68

97

76

79

94

59

98

57

79

98

63

65

66

62

79

86

68

74

64

79

78

79

77

86

89

76

74

85

92

78

88

77

103

88

63

68

88

81

74

70

85

61

65

81

75

62

94

71

93

61

65

62

92

65

64

66

83

70

78

66

66

94

77

63

66

75

68

76

61

71

77

91

96

75

64

76

72

77

81

71

85

99

59

92

94

62

68

72

85

67

87

80

84

93

69

76

89

75

73

81

54

65

71

80

84

88

62

61

61

82

65

98

63

71

62

116

65

88

73

80

68

78

89

72

58

69

82

72

64

73

75

90

62

89

71

71

74

70

85

84

83

63

92

68

81

62

79

83

70

81

77

72

84

67

59

58

73

83

73

76

90

78

71

101

78

43

59

67

74

65

82

86

79

74

66

86

96

89

77

60

87

84

75

77

51

45

63

102

59

77

83

68

72

67

92

89

82

96

根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。

五、实验过程

数据的读入可以参见实验一,这里不再重复。

1.直方图。

软件中直方图的命令为hist()(具体可以参考R软件文档),如果不输入其它参数,则可以采取默认分组,具体为

>hist(x)

也可以指定分组、颜色等其它参数,例如

>hist(x,breaks=15)

在本实验中,为了观察数据的分布特征,以及判断数据是否来自正太总体,可以同时绘出直方图和密度估计曲线和正太分布的概率密度曲线进行比较。

>hist(x,freq=FALSE)

>lines(density(x),col="blue")

>w<-min(x):

max(x)

>lines(w,dnorm(w,mean(x),sd(x)),col="red")

2.经验分布图。

在这一实验中,我们同样可以通过绘出200个灯泡使用时间的经验分布图和相应的正态分布图来进行比较,以判断数据是否来自于正太总体,例如

>plot(ecdf(x),verticals=TRUE,do.p=FALSE)

>w<-min(x):

max(x)

>lines(w,pnorm(w,mean(x),sd(x)))

3.QQ图。

QQ图同样可以用来判断数据的总体情况,画出数据的正态QQ图和正太QQ曲线,判断样本是否来自正态总体,过程如下:

>qqnorm(x);qqline(x)

七、练习实验

1.以下数据为非洲44个国家的人均收入(单位为美元):

1890.00

640.00

660.00

320.00

290.00

1870.00

7480.00

290.00

740.00

1490.00

100.00

430.00

170.00

200.00

150.00

380.00

440.00

260.00

190.00

140.00

290.00

320.00

2780.00

3430.00

250.00

90.00

390.00

430.00

220.00

1350.00

300.00

450.00

3580.00

590.00

4090.00

320.00

310.00

100.00

640.00

310.00

130.00

210.00

550.00

240.00

计算数据集的均值、中位数、分位数、方差、标准差、变异系数、偏度系数以及峰度系数。

2.以下数据为福布斯杂志的全球最好的125个公司的利润数据(单位为美元):

10.93

4.08

1.46

0.91

0.73

0.84

0.86

0.56

0.42

0.30

8.75

2.77

1.02

1.36

0.67

0.54

0.39

0.41

0.39

0.41

5.89

2.78

1.61

0.88

1.08

0.47

0.49

0.32

0.22

0.28

12.43

2.77

1.49

1.13

0.59

0.43

0.46

0.41

0.30

0.34

4.54

2.31

2.43

1.54

1.14

0.52

0.28

0.43

0.35

0.25

3.54

1.83

0.87

0.63

0.44

0.51

0.81

0.42

0.27

0.24

1.80

1.68

1.07

0.73

0.84

1.11

0.28

0.45

0.38

0.26

3.30

3.67

2.85

1.90

0.52

0.37

0.31

0.37

0.27

0.23

5.09

3.23

0.91

1.36

0.93

0.55

0.39

0.23

0.15

2.46

0.55

0.93

1.03

1.07

0.55

0.47

0.33

0.33

3.34

1.48

1.77

0.34

0.29

0.42

0.25

0.39

0.31

3.55

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 工学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1