stata中变量描述分析和作图.ppt

资源描述

stata中变量描述分析和作图.ppt

《stata中变量描述分析和作图.ppt》由会员分享，可在线阅读，更多相关《stata中变量描述分析和作图.ppt（51页珍藏版）》请在冰豆网上搜索。

stata中变量描述分析和作图.ppt

第三讲第三讲描述性分析与画图描述性分析与画图进行描述性统计分析的目的：

进行描述性统计分析的目的：

对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征，把握数据的总体分布形态，进而决定如何对数据作进一步处理，进而回答所要研究的问题。

本章主要内容本章主要内容6.1频数分布6.2条件频数分布6.3频数分布的常见错误分析及解决方法6.4变量的中央趋势和离散趋势6.5描述数值型数据统计量的其它方法6.6画图数据描述的方法数据描述的方法获得数据的目的是为了描述和分析数据，回答研究问题获得数据的目的是为了描述和分析数据，回答研究问题数据分析的第一步是描述变量的基本特征。

只有在熟悉数据的基本特征和变量分布的基础上，才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织、归纳、总结样本的基本特征。

常见的方法包括频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析（univariateanalysis）。

考察变量的属性分布二元或多元交叉表、二元相关关系分析图形描述性分析的菜单窗口描述性分析的菜单窗口该内容是statistics菜单下的首个选项：

StatisticsSummaries，tables&tests6.1频数分布频数分布频数、比例（proportion）、百分比（percentage）和比率（ratio）等描述性统计方法适用于所有类型数据，包括定性、定序、定距和定比数据。

频数与频数分布频数与频数分布频数也称次数，即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的描述假如一个班60%的同学是女生，40%的同学是男生，则60%和40%是女生和男生的分布情况2000年人口普查显示，中国7%的人群年龄在65岁及以上，则7%是当时老年人口在总人口中所占的比例菜单窗口菜单窗口在Stata的窗口菜单下，有多种描述数据频数分布特征的选项，每一选项都具有一定独特的功能，但有些功能是相通的单变量频数分布单变量频数分布.tab变量名变量名：

.tab也可写为tabulation，是获得频数分布的基本命令：

0代表男孩，1代表女孩样本中有1248个男孩，占53.7%；女孩为1075，占46.3%多变量频数分布多变量频数分布.tab1变量变量a变量变量b变量变量c：

同时获得多个变量频数分布的基本命令：

需要输出频数分布的变量名称与tab或tabulate不同的是，.tab1可接多个变量.tabgirlurban该命令告诉Stata，给变量girl和urban各自生成一张频数分布表6.2条件频数分布条件频数分布条件频数分布也称交叉频数表为或列联表，同时生成两个变量之间关系的频数分布，属于相关分析中的一种.基本命令基本命令.tab提供、且只能提供双变量的交叉分析，生成二者之间的交叉频数分布，相当于命令tabulate若其令后面仅有一个变量，则Stata输出该变量的频数分布若多于两个变量，则会出现错误提示Stata的默认方法是，tab后面的第一个变量被当成行变量，第二个变量被当成列变量.tab2也提供双变量的交叉分析表.tab和和tab2的主要区别在于，前者仅可以用于两个变量的交互分析（tab后面最多只能有两个变量）；tab2可同时生成多个两两变量之间的交互频数分布表例1.tabgirlenroll,chi2columnrowmissnokey:

提供两个变量关系的卡方:

提供列变量的百分比:

提供行变量的百分比:

提供缺失变量的比例:

压缩单元格内容的提示6.3频数分布的常见错误之一频数分布的常见错误之一toomanyvariablesspecified导致I类错误的原因在于，混淆了tab，tab1，tab2的用法.tab可用于生成单个变量的频数分布，其后只能接一个变量；.tab也可用来描述两个变量的交叉分布，其后面只能接两个变量tab1后面可以接多个变量，但只能分别生成单个变量的频数分布，而不能生成交叉表tab2则可以生成多个双变量的交叉表因此，若使用下列命令，则会遇到这类错误.taburbanyrschenrolltoomanyvariablesspecifiedr（103）;6.3频数分布的常见错误之二频数分布的常见错误之二toomanyvalues导致这类错误的原因在于，在试图生成两个变量的交叉表时，每个变量都包含太多的取值。

比如：

.tabageweight.toomanyvalues（变量的取值太多）这里，变量age和weight均为连续变量，且都有很多的取值，尤其是weight若需要生成二者之间的交叉表，可以限制其中一个或两个变量的取值，或者将它们转换为分类变量6.4变量的中央趋势和离散趋势变量的中央趋势和离散趋势集中趋势：

众数集中趋势：

众数数据分布的一种表现形式。

频数最多的组段代表了中心位置（平均水平），从两侧到中心，频数分布逐渐增加描述集中趋势的方式包括：

众数、均值、中位数众数、均值、中位数众数众数（mode）：

最常出现的观察值或属性如果在全班30个学生中，20个18岁的学生、5个19岁、5个20岁，则18是众数众数适用于所有类型数据，适用于所有类型数据，但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数，故众数具有不唯一性的特点集中趋势：

算术均值（集中趋势：

算术均值（mean，average）加总多个观察值，除以总观察量得到的数值适用于正态分布或者近似正态分布；正态分布或者近似正态分布；均数受特大值和特小值的影响，会偏大或偏小，故对偏态分布的资料，均数的代表性差，不适合描述偏态分布的集中趋势；全域（总体）均数称为；样本均数称为集中趋势：

集中趋势：

中位数（中位数（median）将一组数值从小到大排列后，位于中间中间的数值；若5个人的年龄分别为1，3，6，8，32，则中位数为6（均值为10）；中位数度量方式适用于偏态分布适用于偏态分布数据。

中位数不受两端特大值和特小值的影响，只和位置居中的观察值有关；对于正态分布，理论上中位数等于均数；离散趋势：

离散趋势：

极差或者全距（极差或者全距（range，R）数据分布的另一种表现形式。

从中心到两侧，频数分布逐渐减少。

反映了数据的离散程度或变异程度；描述离散趋势的方法包括：

级差、方差、标准差；极差或者全距（极差或者全距（range，R）：

表示变量取值中的最大值和最小值之差。

适合所有分布类型的数据；所有分布类型的数据；R最大值最小值计算简单，但不能反映所有变量值的变异程度，易受最大值和最小值的影响，不稳定离散趋势：

离散趋势：

方差（方差（variance）方差（方差（variance）：

表示一组变量取值的平均离散程度。

方差越大，离散或者变异程度越大。

适合描述近似正态分布资料的离散趋势。

离散趋势：

标准差（标准差（standarddeviation）方差的开方，和均数的单位一致，方差的开方，和均数的单位一致，也是数据波动性的一种度量，即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统计量如果一个变量具有正态分布，则均值68%的数值将会位于离平均值加减一个标准差的范围内；95%的个案将会位于加减两个标准差的范围内；99.9%的个案将会位于加减三个标准差的范围内标准差越小，数据的分布就越围绕均值聚集；标准差越大散，数据的分布就越分散。

离散趋势离散趋势：

标准差（：

标准差（II）适合描述近似正态分布资料的离散趋势近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的，反映了每个数据与其均值相比平均相差的数值，因此能准确地反映数据的离散程度计算公式：

离散趋势离散趋势：

自由度：

自由度为什么样本标准差的分母是n-1呢自由度：

自由度：

一组数据中可以自由取值的个数。

当样本的个数为n时，若样本均值确定后，必有一个数据不能自由取值。

因此，只有只有n-1个数据可以自由取值；个数据可以自由取值；假如样本有3个数值，x=4，y=8，z=18，则均值=10。

当均值=10确定后，x，y，z中只有两个数可以自由取值；在抽样估计中，当用样本方差去估计总体方差时，样本方差是总体方差的无偏估计量总体方差的无偏估计量。

正态分布与偏态分布正态分布（正态分布（normaldistribution）一个变量的集中位置居中，左右两侧频数基本对称的分布从形态形态上看，正态曲线两头低、中间高、左右对称正态曲线两头低、中间高、左右对称正态分布是一条单峰、对称呈钟形的曲线，其对称轴为x=，并在x=时取最大值。

从x=点开始，曲线向正负两个方向递减延伸，不断逼近x轴，但永不与永不与x轴相交轴相交，因此说曲线在正负两个方向都是以x轴为渐近线的其性质如下：

函数方程中为位置参数；为位置参数；为形状参数为形状参数若不变不变，函数曲线形状不变。

变大时，曲线位置向右移；变小时，曲线位置向左移若不变不变，函数曲线位置不变。

变大时，曲线形状变得越来越胖、矮；变小时，曲线形状变得越来越瘦、高正态分布正态分布.histogramyrschifyrsch=13,percentstart（0）width

（1）normal偏态分布偏态分布数据的集中位置偏向一侧，频数分布不对称。

偏态分布有两种表现形式正偏态分布正偏态分布：

集中位置偏向数值小的一侧或者左侧，有较长的右尾部负偏态分布负偏态分布：

集中位置偏向数值大的一侧或者右侧，有较长的左尾部.histogramweight,percentstart（0）normalysize（4.5）xsize（2.5）.histogramheight,percentstart（0）normalysize（4.5）xsize（2.5）6.56.5描述性统计描述性统计.sum.sum连续变量该命令给出标准统计量。

输出结果包括：

ObsMeanStd.Dev.MinMax（观察量）（均值）（标准差）（最小值）（最大值）.sum.sum连续变量，detailsumm或summarize得出同样的结果标准信息描述标准信息描述.sumageyrschweightheightVariable|ObsMeanStd.Dev.MinMax-+-age|234110.092275.283423019yrsch|18306.0316943.440358015weight|210334.8563518.54676.4151height|2100132.819330.602770185.5由于缺失值个数的差异，几个变量的观察值都不一样详细情况描述详细情况描述.sum.sumage,detailagein2004-PercentilesSmallest1%005%1010%20Obs232125%50SumofWgt.232150%10Mean9.658337LargestStd.Dev.5.08463175%141890%1618Variance25.8534795%1719Skewness-.31632799%1719Kurtosis1.917769变量age有2321个观察值最小值为0，最大值为191的样本为0岁5的样本1岁或以下10的样本2岁或以下25的样本5岁或以下99的样本在19岁及以下样本的均值为9.66；标准差为5.08；Variance、Skewness和Kurtosis分别表示样本的方差为25.85、偏移度为-0.3

展开阅读全文