第二讲 统计描述入门.docx

上传人:b****6 文档编号:7529551 上传时间:2023-01-24 格式:DOCX 页数:14 大小:170.51KB
下载 相关 举报
第二讲 统计描述入门.docx_第1页
第1页 / 共14页
第二讲 统计描述入门.docx_第2页
第2页 / 共14页
第二讲 统计描述入门.docx_第3页
第3页 / 共14页
第二讲 统计描述入门.docx_第4页
第4页 / 共14页
第二讲 统计描述入门.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

第二讲 统计描述入门.docx

《第二讲 统计描述入门.docx》由会员分享,可在线阅读,更多相关《第二讲 统计描述入门.docx(14页珍藏版)》请在冰豆网上搜索。

第二讲 统计描述入门.docx

第二讲统计描述入门

Stata软件基本操作和数据分析入门

第二讲统计描述入门

一、调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准差、中位数、百分位数和频数表。

173.1

167.8

173.9

176.9

173.8

171.5

175.1

175.2

176.7

174.5

169.2

174.7

185.4

175.8

173.5

175.9

175.9

173.2

174.8

177.2

171.9

166.0

177.3

175.2

179.8

175.7

180.8

171.4

178.9

172.6

166.9

170.8

168.7

175.0

183.7

171.6

172.9

173.6

177.7

172.4

181.2

178.1

173.3

177.5

173.0

174.3

174.5

172.5

171.3

174.0

177.9

170.7

175.2

178.5

177.6

183.3

173.1

170.9

180.5

176.8

179.6

180.6

176.6

174.3

168.7

175.2

179.5

172.5

173.0

174.2

169.5

177.0

183.6

170.3

178.8

181.1

182.9

177.8

164.1

169.1

176.3

169.4

171.1

172.9

177.0

179.8

178.2

174.4

169.2

176.4

178.3

165.0

175.8

181.0

177.6

177.4

178.7

175.1

181.8

171.3

174.8

181.7

177.3

178.5

179.3

177.0

175.8

181.8

177.5

180.2

Stata数据结构

x

1

173.1

2

169.2

3

171.9

4

166.9

5

181.2

6

177.9

7

179.6

8

169.5

9

176.3

10

178.3

11

174.8

12

167.8

13

174.7

14

166

15

170.8

16

178.1

17

170.7

18

180.6

19

177

20

169.4

21

165

22

181.7

23

173.9

24

185.4

25

177.3

26

168.7

27

173.3

28

175.2

29

176.6

30

183.6

31

171.1

32

175.8

33

177.3

34

176.9

35

175.8

36

175.2

37

175

38

177.5

39

178.5

40

174.3

41

170.3

42

172.9

43

181

44

178.5

45

173.8

46

173.5

47

179.8

48

183.7

49

173

50

177.6

51

168.7

52

178.8

53

177

54

177.6

55

179.3

56

171.5

57

175.9

58

175.7

59

171.6

60

174.3

61

183.3

62

175.2

63

181.1

64

179.8

65

177.4

66

177

67

175.1

68

175.9

69

180.8

70

172.9

71

174.5

72

173.1

73

179.5

74

182.9

75

178.2

76

178.7

77

175.8

78

175.2

79

173.2

80

171.4

81

173.6

82

172.5

83

170.9

84

172.5

85

177.8

86

174.4

87

175.1

88

181.8

89

176.7

90

174.8

91

178.9

92

177.7

93

171.3

94

180.5

95

173

96

164.1

97

169.2

98

181.8

99

177.5

100

174.5

101

177.2

102

172.6

103

172.4

104

174

105

176.8

106

174.2

107

169.1

108

176.4

109

171.3

110

180.2

(读者可以把数据直接粘贴到Stata的Edit窗口)

在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:

计算样本的均数、标准差、最大值和最小值

命令1:

su变量名(可以多个变量:

即:

su变量名1变量名2…变量名m)

命令2:

su变量名,d(可以多个变量:

即:

su变量名1变量名2…变量名m,d)

本例命令sux

变量

样本量

均数

标准差

最小值

最大值

Variable|ObsMeanStd.Dev.MinMax

-------------+-----------------------------------------------------

x|110175.36554.222297164.1185.4

本例命令.sux,d

x

-------------------------------------------------------------

PercentilesSmallest

1%165164.1

5%168.7165

10%169.45166Obs110

25%172.9166.9SumofWgt.110

50%175.2Mean175.3655

LargestStd.Dev.4.222297

75%178.1183.3

90%180.9183.6Variance17.82779

95%181.8183.7Skewness-.1756947

99%183.7185.4Kurtosis2.895843

结果说明

Smallest

最小值

Obs

110

样本量

164.1

第1最小值

SumofWgt.

110

加权和(即每个记录的权是1)

165

第2最小值

166

第3最小值

Mean

175.3655

均数

166.9

第4最小值

Std.Dev.

4.222297

标准差

Largest

最大值

Variance

17.82779

方差

183.3

第4最大值

Skewness

-.1756947

偏度系数

183.6

第3最大值

Kurtosis

2.895843

峰度系数

183.7

第2最大值

185.4

第1最大值

Percentiles

百分位数

百分位数PX表示样本中X%的数据小于等于PX并且(100-X)%的数据大于等于PX。

特别:

P50就是中位数,表示一半的数据小于等于它,另一半的数据大于等于它。

本例:

P50=175.2

样本量obs=110,因此有55个数据小于等于175.2,另有55个数据大于等于175.2

1%165

=P1

5%168.7

=P5

10%169.45

=P10

25%172.9

=P25

50%175.2

=P50

75%178.1

=P75

90%180.9

=P90

95%181.8

=P95

99%183.7

=P99

计算百分位数还可以用专用命令centile。

centile变量名(可以多个变量),centile(要计算的百分位数)例如计算P2.5,P97.5等

centile变量名,centile(2.597.5)

本例计算P2.5,P97.5,P50,P25,P75。

本例命令.centilex,centile(2.525507597.5)

--Binom.Interp.--

Variable|ObsPercentileCentile[95%Conf.Interval]

-------------+-------------------------------------------------------------

x|1102.5165.775164.1168.7*

|25172.825171.3314173.6267

|50175.2174.5176.6789

|75178.125177.3179.4371

|97.5183.6225181.8185.4*

*Lower(upper)confidencelimitheldatminimum(maximum)ofsample

结果说明

Percentile

Centile

百分位数

2.5

165.775

=P2.5

25

172.825

=P25

50

175.2

=P50(中位数)

75

178.125

=P75

97.5

183.6225

=P97.5

制作频数表,组距为2,从164开始,

genf=int((x-164)/2)*2+164其中int()表示取整数

tabf频数汇总和频率计算

频数

频率

累积频率

f|Freq.PercentCum.

------------+-----------------------------------

164|21.821.82

166|32.734.55

168|76.3610.91

170|1110.0020.91

172|1614.5535.45

174|2320.9156.36

176|2018.1874.55

178|1311.8286.36

180|109.0995.45

182|43.6499.09

184|10.91100.00

------------+-----------------------------------

Total|110100.00

作频数图

命令graph变量,bin(#)norm

其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要)

本例命令为graphx,bin(8)norm

为了使坐标更清楚地在图上显示,可以输入下列命令

graphx,bin(8)xlabelnormylabel

图形可以从Stata中复制到Word中来,操作如下:

然后到Word中粘贴和编辑,便可以得到所需要的图形。

 

计算几何均数可以用means变量名(可以多个变量:

即:

means变量1…变量m)

meansx

Variable|TypeObsMean[95%Conf.Interval]

-------------+---------------------------------------------------------

x|Arithmetic110175.3655174.5676176.1634

|Geometric110175.3149174.5168176.1166

|Harmonic110175.2642174.4657176.07

-----------------------------------------------------------------------

Arithmetic(算术均数)Geometric(几何均数)调和均数(Harmonic)

作Pie图描述构成比:

每一类的频数用一个变量表示,命令:

graph各类频数变量名,pie

 

例:

下列有2个地区的血型频数分布数据,请用Pie描述:

频数

地区

A

B

O

AB

第1地区area=1

100

120

240

75

第2地区area=2

80

70

200

50

Stata数据格式

a

b

o

ab

area

1

100

120

240

75

1

2

80

70

200

50

2

第1地区血型构成比的Pie图的命令和图

graphaboabifarea==1,pie

注意逻辑表达式中ifarea==1是两个等号。

第2地区血型构成比的Pie图的命令和图

graphaboabifarea==2,pie

两个地区合并后的血型构成比的Pie图的命令和图

正态性检验.sktest变量名1变量名2…变量名m

在上例中的110名19岁男性青年的身高资料正态性检验如下:

sktestx

Skewness/KurtosistestsforNormality

-------joint------

Variable|Pr(Skewness)Pr(Kurtosis)adjchi2

(2)Prob>chi2

-------------+-------------------------------------------------------

x|0.3980.4511.310.5198

无效假设H0:

资料服从正态分布

备选假设H1:

资料不服从正态分布

设=0.05(样本比较大时,取0.05,样本很小时,取0.1)

Prob>z

P值

.5198

=P值>0.05

因此可以认为资料近似服从正态分布。

计量资料统计描述的主要策略

若资料近似正态分布,则用均数标准差描述。

若资料偏态分布(频数图明显不对称),则用中位数(P25――P75)描述。

P25――P75称为四分位数范围(Inter-quartilerange,IQR)

但在一些临床试验资料统计分析时,往往给出样本均数、标准差、中位数、四分位数范围、最小值和最大值,但对结果的主要解释按照上述策略进行。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1