Stata教程描述性统计命令与输出结果说明Word格式.docx

上传人:b****7 文档编号:22676984 上传时间:2023-02-05 格式:DOCX 页数:18 大小:18.39KB
下载 相关 举报
Stata教程描述性统计命令与输出结果说明Word格式.docx_第1页
第1页 / 共18页
Stata教程描述性统计命令与输出结果说明Word格式.docx_第2页
第2页 / 共18页
Stata教程描述性统计命令与输出结果说明Word格式.docx_第3页
第3页 / 共18页
Stata教程描述性统计命令与输出结果说明Word格式.docx_第4页
第4页 / 共18页
Stata教程描述性统计命令与输出结果说明Word格式.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

Stata教程描述性统计命令与输出结果说明Word格式.docx

《Stata教程描述性统计命令与输出结果说明Word格式.docx》由会员分享,可在线阅读,更多相关《Stata教程描述性统计命令与输出结果说明Word格式.docx(18页珍藏版)》请在冰豆网上搜索。

Stata教程描述性统计命令与输出结果说明Word格式.docx

  5.18

  5.58

  5.78

  6.40

  6.53

  健康人

  1.67

  1.98

  2.33

  2.34

  2.50

  3.60

  4.14

  4.17

  4.57

  4.82

  并假定这些数据已以STATA格式存入ex2.dta文件中,其中 变量x1 为患者的血磷测定值数据,变量x2为 健康人的血磷测定值数据。

上述数据也可以用变量x表示血磷测定值,分组变量group=0 表示患者组和group=1表示健康组(如:

患者组中第一个数据为2.6,则x=2.6,group=0;

又如:

健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。

  计算 资料 均数,标准差命令summarize,以述资料为例:

  useex2,clear

  summarizex1 x2

  结果:

  变量

  样本数

  标准差

  最小值

  最大值

  Variable|

  Obs

  Mean

  Std.Dev.

  Min

  Max

  ---------+

  x1|

  11

  4.710909

  1.302977

  x2|

  13

  3.354615

  1.304368

  即:

本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%), 相应的标准差为1.303,最小值为2.6以及最大值为6.53;

健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。

  计算 资料 均数,标准差,中位数,低四分位数和高四分位数的 命令summarize以及子命令detail, 仍以述资料为例:

  use ex2,clear

  summarizex1x2,detail

  x1

  Percentiles

  Smallest(最小值)

  1%

  5%

  10%

  11(样本数)

  25%

  3.73(低四分位) 3.73

  SumofWgt.

  50%

  4.73(中位数)

  (最大值)

  4.710909(均数)

  Largest

  1.302977(标准差)

  75%

  5.78(高四分位)

  90%

  6.4

  Variance

  1.697749(方差)

  95%

  Skewness

  -.0813446(偏度)

  99%

  Kurtosis

  1.809951(峰度)

  x2

  ④

  Smallest

  ① 2.33

  ② 3.6

  ⑤

  ⑥

  75%③

  ⑥Variance

  1.701377

  ⑦Skewness

  .2963943

  ⑧Kurtosis

  1.875392

  由上述结果可知:

summarize命令并使用子命令detail, 不仅可以得到各变量资料的均数和⑥标准差,而且可以得到主要的非参数描述指标:

①低四分位(lowerquartile),②中位数(Median)以及③高四分位(upperquartile)。

对于非正态资料,一般不应用均数±

标准差进行描述,而应使用中位数 以及(低四分位-高四分位,称 interquartilerange,IQR)进行描述。

如:

若本资料不正态[1],则x1的Median以及IQR为:

 4.73(3.73-5.78)以及 x2的Median以及IQR为:

3.6(2.33-4.17)。

⑥为样本方差;

⑦为偏度,偏度 的绝对值越小,表明该数据的正态对称性越好;

⑧峰度,峰度值越大表明该数据的正态峰越明显;

④在该数据中最小的四个数据;

⑤在该数据中最大的四个数据。

  若调用ex2a.dta 文件,进行描述性统计,可用下列命令:

  use ex2a,clear

  sortgroup (将资料以 group 变量为例从小到大排序)

  bygroup:

summarizex

  ->

group=

  0

  x

  1.697749

  -.0813446

  1.809951

  1

  3.6

  上述结果与前面的结果对应相同。

  根据样本数据计算可信限[2]

  95% 可信限计算:

  正态数据:

ci

  变量名

  0-1数据:

  变量名, binomial

  poisson分布数据:

ci 变量名,poisson

  90% 可信限计算(其它可信限类推)

  变量名,level(90)

  变量名, level(90)binomial

ci 变量名,level(90)poisson

  以ex2.dta为例计算x1,x2的95%可信限。

  use ex2.dta,clear

  ①

  ②

  ③

  Std.Err.

  [95%Conf.Interval]

  |

  .3928624

  3.835557

  5.586261

  .3617667

  2.566393

  4.142837

  以上结果中:

①为样本数;

②为均数;

③为标准误;

④为95%的可信限,因此x1的95%可信限为[3.8356,5.5863],x2的95%可信限为[2.5664,4.1428]。

  根据样本数,样本均数 和标准差计算可信限[3]。

  若数据服从正态分布,并已知样本均数和标准差以及样本数,则95%可信限计算为:

  样本均数

已知样本数为90 样本均数为40以及样本标准差为12,则:

计算该 样本均数的95%可信限为

  cii 904012

  +

  90

  40

  1.264911

  37.48665

  42.51335

  该样本均数的90%

  可信限为[37.48665,

  42.51335]

  cii 904012,level(90)

  [90%Conf.Interval]

  37.89752

  42.10248

  计数资料中频数和比例

  STATA命令:

  tab1 变量名[,g(新变量名)

  因为该命令主要适用描述计数资料(即:

属性资料),当使用子命令g(新变量),则产生属性指示变量。

在回归分析中经常需要这些指示变量作为亚元变量进行分析。

50只小鼠随机分配到5 个不同饲料组,每组10 只小鼠。

在喂养一定时间后,测定鼠肝中的铁的含量(mg/g)如表所示:

试比较各组鼠肝中铁的含量是否有显著性差别(摘自医学统计方法,金丕焕主编,p220)。

用x 表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。

  tab1group,g(a)

tabulationofgroup

  group|

  Freq.

  Percent

  Cum.

  1|

  10

  20.00

  2|

  40.00

  3|

  60.00

  4|

  80.00

  5|

  100.00

  Total|

  50

  ①为各属性资料的频数;

②为该属性占整个资料样本数的百分比;

③为累计百分比。

  本例中,总样本数为50,共有5 组,每组有10个样本点,各占总样本数的10%。

因为使用了子命令g(a),从而产生5个指示变量(又可称亚元变量):

a1,a2,a3,a4和a5。

变量a1用于 指示第1组的资料:

即:

当资料属于第1组的(group=1),则a1=1;

其它组的资料(group&

sup1;

1),则a1=0。

变量 a2用于指示第2组的资料,变量a3,a4和a5相应分别指示第3,4,5组的资料(详细见下表)。

  [1] 此处仅是举例而已, 事实上该资料可以用正态检验证明近似服从正态分布。

  [2]

  可信限是对总体均数的区间估计。

95%可信限 表示它所给出的区间能包 含总体均数的概率为 0.95。

通俗地说:

在同一个总体中, 独立地抽 样100次,每次抽取的样本量相同以及计算相应的95%可信限,则平均有95次抽样所得到的95%可信限所对应区间包含该总体均数。

  [3]

  直接 出现在统计命令中的数据称为立即数,相应的命令称为立即命令

  

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 国外设计风格

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1