Stata教程描述性统计命令与输出结果说明Word格式.docx

资源描述

Stata教程描述性统计命令与输出结果说明Word格式.docx

《Stata教程描述性统计命令与输出结果说明Word格式.docx》由会员分享，可在线阅读，更多相关《Stata教程描述性统计命令与输出结果说明Word格式.docx（18页珍藏版）》请在冰豆网上搜索。

Stata教程描述性统计命令与输出结果说明Word格式.docx

　　5．18

　　5．58

　　5．78

　　6．40

　　6．53

　　健康人

　　1．67

　　1．98

　　2．33

　　2．34

　　2．50

　　3．60

　　4．14

　　4．17

　　4．57

　　4．82

　　并假定这些数据已以STATA格式存入ex2．dta文件中，其中　变量x1　为患者的血磷测定值数据，变量x2为　健康人的血磷测定值数据。

上述数据也可以用变量x表示血磷测定值，分组变量group=0　表示患者组和group=1表示健康组（如：

患者组中第一个数据为2．6，则x=2．6，group=0；

又如：

健康组中第三个数据为1．98，则x为1．98以及group为1），并假定这些数据已以STATA格式存入ex2a．dta文件中。

　　计算　资料　均数，标准差命令summarize，以述资料为例：

　　useex2，clear

　　summarizex1　x2

　　结果：

　　变量

　　样本数

　　标准差

　　最小值

　　最大值

　　Variable|

　　Obs

　　Mean

　　Std．Dev．

　　Min

　　Max

　　---------+

　　x1|

　　4．710909

　　1．302977

　　x2|

　　3．354615

　　1．304368

　　即：

本例中急性克山病患者组的样本数为11，血磷测定值均数为4．711（mg%），　相应的标准差为1．303，最小值为2．6以及最大值为6．53；

健康组的样本量为13，血磷测定值均数为3．3546，相应的标准差为1．3044，最小值为1．67以及最大值为5．78。

　　计算　资料　均数，标准差，中位数，低四分位数和高四分位数的　命令summarize以及子命令detail，　仍以述资料为例：

　　use　ex2，clear

　　summarizex1x2，detail

　　Percentiles

　　Smallest（最小值）

　　10%

　　11（样本数）

　　25%

　　3．73（低四分位）　3．73

　　SumofWgt．

　　50%

　　4．73（中位数）

　　（最大值）

　　4．710909（均数）

　　Largest

　　1．302977（标准差）

　　75%

　　5．78（高四分位）

　　90%

　　6．4

　　Variance

　　1．697749（方差）

　　95%

　　Skewness

　　-．0813446（偏度）

　　99%

　　Kurtosis

　　1．809951（峰度）

　　④

　　Smallest

　　①　2．33

　　②　3．6

　　⑤

　　⑥

　　75%③

　　⑥Variance

　　1．701377

　　⑦Skewness

　　．2963943

　　⑧Kurtosis

　　1．875392

　　由上述结果可知：

summarize命令并使用子命令detail，　不仅可以得到各变量资料的均数和⑥标准差，而且可以得到主要的非参数描述指标：

①低四分位（lowerquartile），②中位数（Median）以及③高四分位（upperquartile）。

对于非正态资料，一般不应用均数±

标准差进行描述，而应使用中位数　以及（低四分位-高四分位，称　interquartilerange，IQR）进行描述。

如：

若本资料不正态[1]，则x1的Median以及IQR为：

　4．73（3．73-5．78）以及　x2的Median以及IQR为：

3．6（2．33-4．17）。

⑥为样本方差；

⑦为偏度，偏度　的绝对值越小，表明该数据的正态对称性越好；

⑧峰度，峰度值越大表明该数据的正态峰越明显；

④在该数据中最小的四个数据；

⑤在该数据中最大的四个数据。

　　若调用ex2a．dta　文件，进行描述性统计，可用下列命令：

　　use　ex2a，clear

　　sortgroup　（将资料以　group　变量为例从小到大排序）

　　bygroup：

summarizex

group=

　　1．697749

　　-．0813446

　　1．809951

　　3．6

　　上述结果与前面的结果对应相同。

　　根据样本数据计算可信限[2]

　　95%　可信限计算：

　　正态数据：

　　变量名

　　0-1数据：

　　变量名，　binomial

　　poisson分布数据：

ci　变量名，poisson

　　90%　可信限计算（其它可信限类推）

　　变量名，level（90）

　　变量名，　level（90）binomial

ci　变量名，level（90）poisson

　　以ex2．dta为例计算x1，x2的95%可信限。

　　use　ex2．dta，clear

　　①

　　②

　　③

　　Std．Err．

　　[95%Conf．Interval]

　　．3928624

　　3．835557

　　5．586261

　　．3617667

　　2．566393

　　4．142837

　　以上结果中：

①为样本数；

②为均数；

③为标准误；

④为95%的可信限，因此x1的95%可信限为[3．8356，5．5863]，x2的95%可信限为[2．5664，4．1428]。

　　根据样本数，样本均数　和标准差计算可信限[3]。

　　若数据服从正态分布，并已知样本均数和标准差以及样本数，则95%可信限计算为：

　　样本均数

已知样本数为90　样本均数为40以及样本标准差为12，则：

计算该　样本均数的95%可信限为

　　cii　904012

　　1．264911

　　37．48665

　　42．51335

　　该样本均数的90%

　　可信限为[37．48665，

　　42．51335]

　　cii　904012，level（90）

　　[90%Conf．Interval]

　　37．89752

　　42．10248

　　计数资料中频数和比例

　　STATA命令：

　　tab1　变量名[，g（新变量名）

　　因为该命令主要适用描述计数资料（即：

属性资料），当使用子命令g（新变量），则产生属性指示变量。

在回归分析中经常需要这些指示变量作为亚元变量进行分析。

50只小鼠随机分配到5　个不同饲料组，每组10　只小鼠。

在喂养一定时间后，测定鼠肝中的铁的含量（mg/g）如表所示：

试比较各组鼠肝中铁的含量是否有显著性差别（摘自医学统计方法，金丕焕主编，p220）。

用x　表示鼠肝中铁的含量以及用group=1，2，3，4，5分别表示对应的5个组。

　　tab1group，g（a）

tabulationofgroup

　　group|

　　Freq．

　　Percent

　　Cum．

　　20．00

　　40．00

　　60．00

　　80．00

　　100．00

　　Total|

　　①为各属性资料的频数；

②为该属性占整个资料样本数的百分比；

③为累计百分比。

　　本例中，总样本数为50，共有5　组，每组有10个样本点，各占总样本数的10%。

因为使用了子命令g（a），从而产生5个指示变量（又可称亚元变量）：

a1，a2，a3，a4和a5。

变量a1用于　指示第1组的资料：

即：

当资料属于第1组的（group=1），则a1=1；

其它组的资料（group&

sup1;

1），则a1=0。

变量　a2用于指示第2组的资料，变量a3，a4和a5相应分别指示第3，4，5组的资料（详细见下表）。

　　[1]　此处仅是举例而已，　事实上该资料可以用正态检验证明近似服从正态分布。

　　[2]

　　可信限是对总体均数的区间估计。

95%可信限　表示它所给出的区间能包　含总体均数的概率为　0．95。

通俗地说：

在同一个总体中，　独立地抽　样100次，每次抽取的样本量相同以及计算相应的95%可信限，则平均有95次抽样所得到的95%可信限所对应区间包含该总体均数。

　　[3]

　　直接　出现在统计命令中的数据称为立即数，相应的命令称为立即命令

展开阅读全文