数据与模型的关系.docx

资源描述

数据与模型的关系.docx

《数据与模型的关系.docx》由会员分享，可在线阅读，更多相关《数据与模型的关系.docx（7页珍藏版）》请在冰豆网上搜索。

数据与模型的关系.docx

数据与模型的关系

计量经济学模型对数据依赖性的探索　

一、引言

　　在计量经济学模型的应用研究中，经常有人提出类似于“鸡生蛋还是蛋生鸡”的问题，即究竟是根据数据设定模型．还是根据模型选择数据?

不同的是．鸡与蛋的关系问题是没有答案的，而模型与数据的关系问题是有答案的。

表示计量经济学应用模型的类型依赖于表征研究对象状态的数据类型，不同类型的数据。

必须选择不同类型的模型。

在模型类型确定之后，依据对研究对象的系统动力学关系的分析，设定总体模型。

在这个过程中，必须对在经济理论指导下所分析的系统动力学关系进行统计必要性检验。

当总体模型被正确设定后，接下来的任务是进行模型参数的估计，毫无疑问，模型估计必须得到样本数据的支持，模型估计结果依赖于样本数据的质量。

模型经过估计和检验后进人应用，根据应用目的的不同，需要不同的数据支持，例如用于预测，必须首先给出预测期的外生变量的数据，这就是所表示的步骤。

　　计量经济学模型对数据的依赖性的一个人所共知的例子是关于我国广义技术进步对经济增长的贡献的测算。

国内外许多学者进行了经验研究。

结果差异极大，技术进步对增长的贡献率．最低的估计为，最高估计达到％。

甚至所建立的模型都是—型总量生产函数模型．选择的投入要素都是资本和劳动．甚至选择的样本区间也是相同的．数据都来自于中国统计年鉴，仍然会得到不同的结论。

为什么?

关键是不同的研究者对资本投入的数据或者未进行任何处理，或者进行了不同方式的处理，以消除价格因素的影响最近几年．我们对农户借贷需求进行了较为广泛的调查，采集了青海、新疆、甘肃、河北、黑龙江、吉林、山西、湖南、湖北、河南、安徽、江西、陕西、山东、辽宁、内蒙古等省区的个县、多个村庄的家农户的数据。

其中，在一年中发生借贷行为的农户占．％（包括向亲友借贷），为户，其余户没有发生借贷。

对于这一宝贵的数据资源．当然要充分利用。

于是。

为了对农户借贷行为进行因素分析．不同的研究者建立了不同的计量经济学模型。

　　上述例子从不同的角度反映了计量经济学模型与数据之间的关系。

前者反映了计量经济学模型估计结果对数据质量的依赖性：

后者反映了计量经济学模型类型对数据类型的依赖性。

正如李子奈（）指出的．在我国计量经济学应用研究广泛开展的今天，问题和错误也普遍存在。

重要的原因之一是对计量经济学模型方法论基础缺乏正确的理解，其中包括计量经济学模型的数据基础问题下面将着重就当前计量经济学应用研究中有关模型与数据之间关系的几个迫切、重要的问题进行讨论。

最后对“数据陷阱”问题进行简单的讨论。

　　二、模型类型设定对数据的依赖性

　　在经济、社会问题研究中，当研究对象确定之后．表征该经济、社会活动结果的数据自然地被确定了。

计量经济学应用研究的第一步，就是根据表征所要研究的经济、社会活动结果的数据类型确定应该建立什么类型的计量经济学模型，在这一步骤中．数据的类型决定了计量经济学模型的类型。

李子奈（）指出．一个成功的计量经济学应用研究，最重要的是设定正确的总体回归模型：

并且提出了总体模型设定的若干原则，包括唯一性、一般性、现实性、统计检验必要性和经济系统动力学关系导向原则。

但是这些是在模型类型确定之后的任务．确定模型类型仍然是首要的任务。

用于宏观和微观计量经济分析的数据分为三类：

截面数据（—）、时间序列数据（—）和面板数据（，也译为平行数据、综列数据）。

　　对于截面数据，只有当数据是在截面总体中由随机抽样得到的样本观测值．并且变量具有连续的随机分布时，才能够将模型类型设定为经典的计量经济学模型。

经典计量经济学模型的数学基础是建立在随机抽样的截面数据之上的。

但是，在实际的经验实证研究中．面对的截面数据经常是非随机抽样得到的．或者是离散的，如果仍然采用经典计量经济学的模型设定，错误就不可避免了。

　　例如在前述的农户借贷的实例中．如果只利用户发生借贷的农户为样本，建立经典的回归模型，被称为“截断数据”（—）。

这类数据在实际经济分析中十分常见，特别在微观经济社会问题研究中大量存在。

人们抽取的样本经常是“掐头”或者“去尾”的。

对于这类数据，因为抽取每个样本的概率发生了变化，如果仍然采用经典计量经济学模型，其估计结果就产生了“选择性偏误”，应该建立截断数据模型，在这方面．．（．）做出了基础性贡献。

　　例如，我们研究的对象是选择的结果，或者是二元选择问题，或者是多元选择问题。

作为模型被解释变量的观测值只能是、或者、、、…。

这类问题人们几乎每时每刻都面临着。

选择结果受哪些因素的影响?

各个因素的影响程度有多大?

当然可以通过建立计量经济学模型来分析。

但是，经典计量经济学模型显然是不适用的，应该建立专门的离散选择模型，在这方面．．（）做出了基础性贡献。

　　再如，我们经常要研究表现为计数数据（）的社会、经济活动结果受哪些因素的影响。

例如，汽车一个月内发生事故的次数、学生本科年内不及格的课程门数、大学毕业生参加工作前年内调换工作的次数、个人一年内到医院就诊的次数，等等。

这些数据都是离散的非负整数，在随机抽取的一组样本中．零元素和绝对值较小的数据出现得较为频繁，重复抽样的正态分布假设不再适用。

显然，对于这样的问题，不可以建立以正态性假设为基础的经典计量经济学模型，应该建立专门发展的计数数据模型，（）提出了泊松回归模型，，（）提出了负二项回归模型。

　　对于时间序列数据，经典计量经济学模型只能建立在平稳时间序列基础之上，因为只有对满足渐进不相关的协方差平稳序列，才可以适用基于截面数据的统计推断方法，建立时间序列模型。

协方差平稳性和渐进不相关性为时间序列分析适用大数定律和中心极限定理创造了条件，替代了截面数据分析中的随机抽样假定（，）。

　　否则．数据的时间序列性破坏了随机抽样假定．取消了样本点之间的独立性，样本点将发生序列相关。

如果序列相关性不能足够快地趋于零．在统计推断中发挥关键作用的大数定律、中心极限定理等极限法则缺乏应用基础。

很可惜，实际的时间序列很少是平稳的。

由于宏观经济仍然是我国学者进行经验实证研究的主要领域，而宏观时间序列大量是非平稳的，于是出现了大量的错误。

只有经济行为上存在长期均衡关系。

在数据上存在协整关系的非平稳时间序列，才能够建立经典的结构模型．．．（，）等的贡献解决了非平稳时间序列模型设定的数学基础问题。

　　至于面板数据，截面数据和时间序列数据存在的问题同时存在，并且还提出了模型设定的专门问题，例如变截距和变系数问题、随机影响和固定影响问题等．已经发展形成了一套完整的模型方法体系（见，，）。

依据新的模型方法体系设定总体理论模型，才能进行可靠的经验实证。

　　三、总体回归模型设定对数据关系的依赖性

李子奈（）曾经用图描述数据在总体回归模型设定中的作用。

在经济学理论指导下，通过经济主体动力学关系分析，得到了对研究对象（在单方程计量经济学模型中被称为被解释变量）具有恒常的、显著的影响的因素。

这些关系是否真的存在?

这些因素如何被引入模型?

仍然需要依赖数据。

即经济关系的确认，是以数据之间存在统计相关关系为条件的。

这就是总体回归模型设定对数据关系的依赖性。

所以．在经济主体动力学关系分析的基础上．必须进行数据的统计相关性检验．包括时间序列的因果关系检验．对经济行为分析的结论加以“甄别”，去伪存真。

　　这里必须强调的是，在图中．首先是在经济学理论的指导下．对研究对象进行经济行为分析，然后利用数据进行统计分析。

以检验行为分析得到的假设。

如果简单地依据数据关系确定经济关系．显然是不正确的。

数据之间存在统计相关关系，并不是存在经济关系的充分条件，而只是必要条件。

列举一个错误不易被发现的例子．时间序列结构突变点的内生与外生问题。

时间序列的结构变化是计量经济学应用研究中的一个普遍现象，它既是一个经济现象，也是一个统计现象。

在时间序列分析中，将结构突变点外生，是从经济现象人手，然后用统计现象进行检验．将统计检验看作必要条件。

近年来的许多应用研究将结构突变点内生，即从统计现象人手．然后用经济现象进行解释，将统计检验看作充分条件。

结构突变点内生，从统计学方法技术上讲是先进的，但是从逻辑学上讲是存在问题的，误将必要条件作为充分条件。

　　另一个重要的问题是．用什么“变量”表征“因素”?

经济系统的动力学分析。

得到的只是“恒常的、显著的影响因素”。

例如，资本和劳动是产出量的直接影响因素．收入和价格是需求量的直接影响因素。

用什么“变量”来表征这些“因素”，并且作为解释变量引入模型?

仍然需要依赖数据。

根据数据的可得性和代表性原则，选择恰当的变量。

例如，表征资本的变量应该是固定资本与流动资本之和．但是在很多情况下（例如以企业为研究对象）缺少流动资本的数据，只能采用固定资本，那么会带来什么问题?

固定资本又有原值和净值之分．又应该如何选择?

另外还大量涉及总量与部分之间的选择问题．应该采用总量的必须采用总量，如果用部分代替总量，必须假设在所有的样本点上部分在总量中的比例是相同的．这又是一个需要利用数据进行检验的问题。

　　四、模型估计对数据质量的依赖性

　　确定了模型类型，并正确地完成了总体回归模型的设定．接下来的任务就是根据总体模型采集用于模型估计的样本数据。

前述的关于我国广义技术进步对经济增长贡献的测算一例．已经说明了计量经济学模型的估计结果对样本数据质量存在着依赖性。

　　在世纪年代以前，国际统计界基本上是以提高数据准确性为出发点对数据质量问题展开研究，但是数据质量的内涵远超过单纯的数据准确的概念。

之后，学者们更多地从数据使用者的角度去评判数据的质量，从而形成了数据质量的众多维度。

李子奈（）将计量经济学模型的样本数据质量概括为一致性、完整性、准确性和可比性四个方面。

　　所谓一致性．即母体与样本的一致性，样本必须是从母体中随机抽取的。

在实际应用中．违反一致性的情况经常会发生。

例如。

用企业的数据作为行业生产函数模型的样本数据，用人均收入与消费的数据作为总量消费函数模型的样本数据．用个省份的数据作为全国总量模型的样本数据，等等。

　　所谓完整性．即总体模型中包含的所有变量都必须得到相同容量的样本观测值。

这既是模型参数估计的需要，也是经济现象本身应该具有的特征。

但是，在实际中，“遗失数据”的现象是经常发生的。

在出现“遗失数据”时．如果样本容量足够大，样本点之间的联系并不紧密的情况下，可以将“遗失数据”所在的样本点整个地去掉：

如果样本容量有限，或者样本点之间的联系紧密，去掉某个样本点会影响模型的估计质量．则要采取特定的技术将“遗失数据”补上。

　　　　所谓一致性．即母体与样本的一致性，样本必须是从母体中随机抽取的。

在实际应用中．违反一致性的情况经常会发生。

例如。

　　所谓完整性．即总体模型中包含的所有变量都必须得到相同容量的样本观测值。

这既是模型参数估计的需要，也是经济现象本身应该具有的特征。

但是，在实际中，“遗失数据”的现象是经常发生的。

在出现“遗失数据”时．如果样本容量足够大，样本点之间的联系并不紧密的情况下，可以将“遗失数据”所在的样本点整个地去掉：

如果样本容量有限，或者样本点之间的联系紧密，去掉某个样本点会影响模型的估计质量．则要采取特定的技术将“遗失数据”补上。

　　所谓准确性．有两方面含义，一是所得到的数据必须准确反映它所描述的经济变量的状态，即统计数据或调查数据本身是准确的：

二是它必须是模型研究中所准确需要的，即满足模型对变量口径的要求。

前一个方面是显而易见的，而后一个方面则容易被忽视。

例如，在行业生产函数模型中．作为解释变量的资本、劳动等必须是投入到生产过程中的、对产出量起作用的那部分生产要素。

以劳动为例，应该是投入到生产过程中的、对产出量起作用的那部分劳动者的实际劳动投入。

　　所谓一致

展开阅读全文