描述性分析与不平等的度量方法.doc

资源描述

描述性分析与不平等的度量方法.doc

《描述性分析与不平等的度量方法.doc》由会员分享，可在线阅读，更多相关《描述性分析与不平等的度量方法.doc（29页珍藏版）》请在冰豆网上搜索。

描述性分析与不平等的度量方法.doc

经济计量方法与Stata应用讲义1

1.描述性分析与不平等的度量方法

孙志军

北京师范大学经济与工商管理学院

本章使用数据文件为

1.教育与工资1.dta

2.2005年广东省人口抽样数据.dta

3.农村家庭收入数据（甘肃2004）.dta

4.CHNS数据2004、2006年成人调查问卷有关数据。

经济学的经验分析（EmpiricalAnalysis）方法通常分为描述性分析和回归分析。

描述性分析常用的方式是考察变量的分布特征，计算集中趋势（如平均值、中位数）和离散趋势（如方差、变异系数）等。

它通常有两个作用，一个是在统计推断或因果分析之前，发现、界定或详细讨论要研究的问题；另一个是验证假说。

回归分析即是计量经济学中核心内容，可以说，回归分析和经济理论的结合就构成了计量经济学。

它有两个基本特征，第一，回归模型（或称为经验模型）的建立要依赖经济理论，考虑一个简单回归模型：

y＝a＋bx＋u，如果是单纯的回归分析，则我们只要搜集到自变量x和因变量y的一个样本数据，就可以估计出参数a和b来。

在计量经济学中，则首先要对x和y之间的关系的逻辑关系给出经济理论的解释，或者通过理论推导出上述回归模型来，而不是单纯的x和y之间的数据关系，这也就是我们在许多计量经济学文献中看到的，将回归模型称为结构模型（StructureModel）的原因。

第二，上述特征决定了计量经济学中的回归分析的作用是进行因果推断，即考察x和y之间的因果关系，这也正是经济理论的要求。

回归分析在本书或其他计量经济学教材中是主要内容，本章只通过几个例子说明描述性分析的特征和用处。

1.1主要概念与简单描述性分析

1.1.1变量与数据

所谓变量（variable）是指其值会变动、变化的量，与此相对的概念是常量或常数（constant）。

变量的测量值或观察值则称为变量值，一个或多个变量及其测量值就构成了数据。

了解变量和数据是从事计量经济分析要做的初步工作。

1.变量的类型

变量包括定性变量和定量变量两类，在处理资料之前，首先要分清变量类型。

观察下表中列出的变量及其取值，看看有什么区别？

表1.1变量的层次

变量

变量的可能取值

性别

男；女

风险厌恶程度

非常厌恶、一般、不厌恶

子女数目

1个；2个；3个

收入

100元；150元；200元；…

定性变量又包括类别变量和有序变量两类。

表1.1中“性别”这一变量，取值只有两类：

男或女。

像这样的变量就被称为类别变量。

它的取值只有类别属性之分，而无大小、程度之分。

根据变量值，只能知道研究对象是相同或是不同。

如性别、婚姻、民族、专业、职业等等。

从数学运算特性来看，类别变量只具有等于或不等于的性质。

表1.1中“风险厌恶程度”变量的取值有程度或大小之分，或者有等级、次序差别。

像这样的变量就称为有序变量。

当然，这类变量也有类别属性，因而它的层次要高于类别变量。

其数学运算性质除具有等于或不等于外，还有大于或小于之分。

常见的有序变量还有教育程度（文盲、小学、初中、高中、大学）、社会经济地位（上等、中等、下等）、积极性（很积极、一般、不积极）等等。

表1.1中“子女数目”和“收入”这两个变量的值是有度量单位的数值，这些数值有大小之分，可以进行加减乘除，在进行加减乘除的数学运算后也具有实际的意义，比如200元除以100元等于2，表示前者是后者的2倍。

像这样的变量称为定量变量、数值变量等。

大多数数值变量都是连续性变量。

在经验分析中，对于定性变量可以根据其类别或等级赋予数值，比如性别变量，可以赋予男性＝1，女性＝0；态度变量：

非常厌恶＝0，一般＝1，不厌恶＝2。

对这些变量赋予的数值，并没有实际的含义，只是代表某种类别或等级。

之所以这样做，是为了在分析中更为方便的缘故。

这也是定性变量和定类变量在操作层面的主要区别。

在回归分析中，定性变量则已一个虚拟（dummy）变量系列表示（详见后面的“基本线性模型”内容）。

2.数据的层次、类型与结构

经济研究所用的数据包括了三个维度：

层次、类型和结构。

（1）数据层次

数据的层次分为两类：

微观数据和宏观数据（microandmacrodata）。

微观数据是指个体层面的数据，如本章下面所用的个体抽样调查数据就是微观层面的数据。

宏观数据是指由个体数据汇总而出的数据，比如按照省份汇总每个人的教育水平、收入，就得到一个省级层面的宏观数据，像第一章的各省经济、投资等数据也是一个宏观层面的数据。

由于微观数据在经济研究中的应用越来越广泛，计量经济学也出现一个以微观计量经济分析命名的分支学科。

（2）数据类型

数据类型包括调查数据（surveydata）、社会实验数据（datafromSocialExperiments）和自然实验数据（DatafromNaturalExperiments）。

调查数据是指从总体中随机抽取一个样本进行调查而获得的数据，比如农村家庭收入调查数据。

大量的研究使用的即是这类数据。

社会实验数据是指采用实验室实验的设计思路，对经济或社会行为进行实验而获得的数据。

比如，要研究小额信贷对农村家庭收入的影响，可以随机抽取一个农村家庭样本，随机的给予一些家庭小额信贷，另一部分不给予，最后观察其收入，就构成了一个社会实验数据。

自然实验数据是指在调查数据中根据某个变量可以将数据构造成类似社会随机实验的数据。

这类数据在进行政策分析时特别有用。

比如要考察我国的农村税费改革对农村家庭收入的影响，由于一部分地区先进行改革，而另一部分地区后进行改革，这样就类似于进行了一场实验，通过搜集改革前和改革后的数据，就构成了自然实验数据，从而评估税费改革的效果。

（3）数据结构

不同层次、不同类型的数据在结构上可以区分为以下四类：

l横截面数据（Cross-sectionaldataset）：

就是在给定时点对个人、家庭、企业、城市、省、国家或其他单位采集的样本所构成的数据。

像第一章经济和投资数据就是2006年这个时点上的一个中国各省的横截面数据。

l时间序列数据（Timeseriesdataset）：

由一个或几个变量不同时间的观测值所构成的数据。

如1980－2010年某省的经济和投资数据就构成了一个时间序列数据。

l混合横截面数据（Pooledcrosssectionaldataset）：

由不同时点上对总体进行抽样获得的横截面数据构成的数据。

如在2005年和2010年分别对家庭抽样调查所获得的数据。

l面板或纵列数据（PaneldataorLongitudinaldata）：

由不同时点上对同一单位观测所获得的数据。

如1980－2010年中国各省的经济和投资数据。

计量经济分析包括了上述不同层次、类型和结构的数据，除去基本的分析方法相近外，对不同数据还分别有不同的分析方法，以后的部分将对此做详细介绍。

3.描述性统计分析的基本内容

描述性统计分析主要分为对变量的集中趋势和离散趋势的分析。

根据变量的类型，描述性统计分析主要可以分为一下几类：

（1）单变量描述统计

是指对单一个变量的集中趋势和离散趋势的分析。

根据变量的两种类型，对单变量描述统计分析的方法有所不同，又分为单定性变量的和单定量变量的描述统计分析。

（2）定性－定性变量描述统计

在对经济现象的研究中，我们更感兴趣的探究两个或两个以上变量之间的关系。

定性－定性变量的描述统计分析即是，当两个或两个以上的变量均为定性变量时，应用描述统计分析方法考察变量之间的关系。

比如，我们想考察“风险态度是否存在性别差异”这个命题，就可以比较男性和女性在风险态度的频次分布上是否存在差异来进行，这就是定性－定性变量的描述统计分析。

（3）定性—定量变量描述统计

当一个变量为定类变量，一个为定量变量时，考察两者之间的关系就称为定性－定量变量描述统计分析。

比如我们关心收入上是否存在性别差异，就可以比较男性和女性的收入的平均水平来进行。

4.本节所用数据

本章所用数据是一个微观个体抽样调查数据，数据总观测数为894个（个体），变量包括个体的性别、教育、工作单位以及年工资。

详细内容见数据文件“教育与工资1.dta”。

这些变量的详细定义如下：

表1.2本节所用数据变量定义

变量名

含义

值

gender

性别

男性＝1；女性＝0

schyear

受教育年数（单位：

年）

0－16年

schlevel

受教育程度

初中及以下＝1；高中＝2；大学＝3

exp

工作年数（单位：

年）

0－49年

organise

工作单位性质

国有部门＝0；集体企业＝1；私营企业＝2；其他＝3

wage

年工资（单位：

元）

840－80000元

根据这个数据集，下面我们依次来讨论描述性统计分析的一些主要内容。

1.1.2单变量描述统计分析

在进行更深入的研究之前，往往首先要对各个变量的分布特征有一个大概的了解，这就是单变量描述统计分析主要完成的事情。

此外，在经济学研究中，对于经济不平等或发展差异（如收入不平等、经济水平差距）的分析是一个重要领域，在统计学中这属于变量离散趋势的分析，本节也对此做了初步介绍。

我们主要选取以下衡量集中趋势和离散趋势的指标进行说明。

对于这些指标的计算原理，这里并不进行描述，你可以查阅相关的统计方面的书籍及其他资料，这里只是给出Stata的操作命令。

表2.3给出了这些指标（或统计量）与STATA基本命令。

表1.3描述统计分析指标（或统计量）与STATA基本命令

统计量名称

含义

STATA常用基本命令*

频次

衡量类别或有序变量的集中趋势。

tabulate（tab）

平均值与分位数

衡量定量变量的集中趋势

summarize（su）;centile

方差与标准差

衡量定量变量的离散趋势

summarize（su）

不平等指标

衡量定量变量的离散趋势。

常用的有：

分组比例、变异系数（CV）、基尼系数（Gini）、广义熵指数（GE）与泰尔系数（TheilIndex）

inequal7

注：

*括号内为缩写。

STATA中常用的这些基本命令在下面的内容中也会用到。

下面我们根据本章的数据“c2.1教育与工资1.dta”中的一些指标分别看看是如何操作的。

基本描述性统计分析

任务1频次分析

任务描述：

总样本中不同性别、教育程度、工作单位的频次分布状况

（1）性别分布

tabgender

在上述结果中，第1列显示的是变量的取值，第二列是频次，第三列是频率或百分比，第四列是累积频率或累积百分比。

结果显示，在总样本894个体中，男性占了56.26％。

（2）教育程度分布

tabschlevel

结果显示，在总样本中，初中及以下教育水平的个体占了21.25％，高中的占了40.49％，大学的占了38.26％。

（3）工作单位分布

taborganise

结果显示，样本中工作单位在国有部门（＝0）、集体企业（＝1）、私营企业（＝2）和其他部门（＝3）分别占了25.39％、61.19％、7.16％和6.26％，还可以看出，样本个体以来自国有部门和集体企业的为主，累积比例为86.58％。

任务2平均值与方差

任务描述：

计算样本个体的平均工资与标准差，以及分别计算男性和女性的工资。

（1）全部样本

suwage

（2）男性样本

suwageifgender==1

（3）女性样本

suwageifgender==0

上述结果列出了各类个体的观测数（Obs）、平均值（Mean）、标准差（Std.Dev.）、最小值（Min）和最大值（Max）等概要统计量。

可以看出，个体平均工资为9135.6元，其中男性9941.3元，女性8167.7元，从标准差来看，男性样本的工资的离散程度（或差异）大于女

展开阅读全文