若dij≥d
其中,d为事先给定的距离临界值。
也可直接以距离之倒数(inversedistance)作为空间权重:
1
wij=d
ij
在上式中,距离dij既可以是地理距离,比如直线距离或大圆距
离(greatcircledistance);也可以是基于运输成本或旅行时间的经济距离;甚至社交网络中的距离。
例:
林光平等(2005)使用基于地理相邻关系的简单权重矩阵W来研究我国28个省市在1978-2002年期间实际人均GDP的收敛情况。
但相邻地区经济上的相互关系并不完全相同。
为此,林光平等(2005)使用地区间人均GDP的差额作为测度地
区间“经济距离”的指标,并引入经济空间权重矩阵W*=W⨯E,
其中矩阵E的主对角线元素均为0,非主对角线的(i,j)元素为
Eij=
1(i≠
j),Yi为地区i样本期间的人均实际GDP平均值。
29.3空间自相关
在使用空间计量方法前,首先要考察数据是否存在空间依赖性。
如果不存在,则使用标准的计量方法即可;
如果存在,则可使用空间计量方法。
比照时间序列(timeseries),空间数据有时也称为“空间序列”(spatialseries)。
时间序列可视为在时间轴上分布的随机过程,而空间数据(序列)则为在空间分布的随机过程。
时间序列的一个重要特性是可能存在自相关,特别是一阶自相关。
对于空间序列,自相关的情形则更为复杂;因为时间序列只可能在一个方向上相关(过去影响现在,但现在无法影响过去),而空间序列则可以在多个方向上相关,而且可以互相影响(xi影响xj,而xj也影响xi)。
“空间自相关”(spatialautocorrelation)可理解为位置相近的区域具有相似的变量取值。
如果高值与高值聚集在一起,低值与低值聚集在一起,则为“正空间自相关”(positivespatialautocorrelation)。
如果高值与低值相邻,则为“负空间自相关”(negativespatialautocorrelation);较少见。
如果高值与低值完全随机地分布,则不存在空间自相关。
ii=1
考虑空间序列{x}n。
文献中提出了一系列度量空间自相关的方法,最为流行的是“莫兰指数I”(Moran’sI):
nn
∑∑wij(xi
-
x)(xj
-
x)
I=i=1
j=1
S∑∑w
nn
2
ij
i=1j=1
∑
其中,S2=
ni=1
(xin
-x)2
为样本方差,wij为空间权重矩阵的(i,j)
nn
元素(用来度量区域i与区域j之间的距离),而∑∑wij为所有空间
权重之和。
i=1
j=1
nn
如果空间权重矩阵为行标准化,则∑∑wij
=n,莫兰指数I为:
i=1j=1
nn
∑∑wij(xi
-
x)(xj
-
x)
n
I=i=1j=1
∑(xi
-x)2
i=1
莫兰指数I的取值一般介于-1到1之间,大于0表示正自相关,即高值与高值相邻、低值与低值相邻;小于0表示负自相关,即高值与低值相邻。
如果莫兰指数I接近于0,则表明空间分布是随机的,不存在空间自相关。
莫兰指数I可视为观测值与其空间滞后(spatiallag)的相关系数。
如果将观测值与其空间滞后画成散点图,称为“莫兰散点图”
(Moranscatterplot),则莫兰指数I就是该散点图回归线的斜率。
考虑原假设“H0:
Cov(xi,
xj)=0,
∀i≠
j”(即不存在空间自相关)。
在此原假设下,莫兰指数I的期望值为
E(I)=
-1
n-1
莫兰指数I的方差表达式更为复杂,记为Var(I)。
标准化的莫兰指数I服从渐近标准正态分布:
I*≡
I-E(I)
−d−→N(0,1)
在使用莫兰指数I检验空间自相关时,须注意两个问题。
问题之一,莫兰指数I取决于空间矩阵W,如果空间矩阵设定不正确,则可能导致错误的结果。
问题之二,莫兰指数I的核心成分为(xi
-
x)(xj
-
x),其隐含假设
是{x}
n
ii=1
的期望值为常数(constantmean),不存在任何趋势(trend)。
如果存在趋势,则可能导致检验结果出现偏差。
为了解决问题一,须仔细选择合适的空间矩阵,或使用不同的空间矩阵以考察结果的稳健性。
为了解决问题二,可引入协变量,通过回归的方法去掉趋势,然后对残差项进行莫兰指数I检验。
以上的莫兰指数I也被称为“全局莫兰指数I”(globalMoran’sI),
ii=1
考察整个空间序列{x}n
的空间集聚情况。
如果想知道某区域i附近的空间集聚情况,可使用“局部莫兰指数I”(localMoran’sI):
(xi-x)n
Ii=
2∑wij(xj
S
j=1
-
x)
局部莫兰指数I的含义与全局莫兰指数I相似。
莫兰指数I并非唯一的空间自相关指标,另一常用指标为“吉尔里指数C”(Geary’sC)(Geary,1954),也称为“吉尔里相邻比率”(Geary’sContiguityRatio):
nn
(n-1)∑∑w(x
-x)2
C=⎛
i=1
nn
j=1
⎫⎡
ijij
⎤
n
2
2ç∑∑wij⎪⎢∑(xi
-x)⎥
⎝i=1
j=1
⎭⎣i=1⎦
吉尔里指数C的核心成分为(x-x)2。
ij
吉尔里指数C的取值一般介于0到2之间(2不是严格上界),大于1表示负相关,等于1表示不相关,而小于1表示正相关。
吉尔里指数C与莫兰指数I呈反向变动;前者比后者对于局部空间自相关更为敏感。
在不存在空间自相关的原假设下,吉尔里指数C的期望值为1,而方差的表达式较复杂,记为Var(C)。
标准化的吉尔里指数C服从渐近标准正态分布:
C*≡
C-1
−d−→N(0,1)
莫兰指数I与吉尔里指数C的共同缺点在于,即无法分别“热点”(hotspot)与“冷点”(coldspot)区域。
所谓热点区域,即高值与高值聚集的区域;而冷点区域则是低值与低值聚集的区域。
热点区域与冷点区域都表现为正自相关。
GetisandOrd(1992)提出了以下“Getis-Ord指数G”:
nn
∑∑wijxixj
nn
G=i=1j=1
∑∑xixj
i=1j≠i
其中,xi
>0,
∀i;而wij来自非标准化的对称空间权重矩阵,且
所有元素均为0或1。
如果样本中高值聚集在一起,则G较大;如果低值聚集在一起,则G较小。
nn
∑∑wij
在无空间自相关的原假设下,E(G)=
i=1j≠i。
n(n-1)
如果G值大于此期望值,则表示存在热点区域;如果G值小于此期望值,则表示存在冷点区域。
标准化的G服从渐近标准正态分布:
G*≡
G-E(G)
−d−→N(0,1)
如果G*>1.96,则可在5%水平上拒绝无空间自相关的原假设,
认为存在空间正自相关,且存在热点区域。
如果G*<-1.96,则可在5%水平上拒绝无空间自相关的原假设,
认为存在空间正自相关,且存在冷点区域。
如果要考察某区域i是否为热点或冷点,则可使用“局部
Getis-Ord指数G”:
Gi=
∑wijxjj≠i
∑x
j
j≠i
以上各种空间自相关指标仅提供是否存在空间效应的初步检验,深入检验有赖于建立正式的空间计量模型。
29.4空间自回归模型
对于时间序列,最常见的建模方式为一阶自回归AR
(1)。
空间自回归的形式更为复杂,因为空间滞后可以来自不同的方向,而且可以双向。
ii=1
对于空间序列{y}n
(样本容量为n),即使假设空间自相关的形
式为线性,待估计的参数在理论上最多可达(n2-n)个(每个区域最
多可受n-1个区域影响,共有n个区域),大大超出样本容量。
必须假设空间依赖性服从某种共同的模式,才能简化参数。
首先回顾时间序列的一阶自相关模型:
yt=
βyt-1+εt
(t=2,,n)
假设n=4,而y1=ε1。
将这4个方程叠放在一起可得:
⎛y1⎫
⎛0000⎫⎛
y1⎫⎛ε1⎫
çy
y=ç
⎪
2⎪=
ç1000⎪çy
βç⎪ç
⎪ç
2⎪+ç
⎪
ε
2⎪≡
βWy+ε
çy3⎪
ç0100⎪çy3⎪çε3⎪
y
ç⎪
⎝4⎭
ç0010⎪çy
⎝⎭⎝
W
⎪ç⎪
ε
4⎭⎝4⎭
其中,矩阵W的次主对角线元素均为1,而其他元素都为0。
矩阵W可视为“时间滞后矩阵”,它之所以呈现出次对角线元素为1而其他元素为0的规律性排列,正是由于时间滞后在方向上的单一性。
对于空间序列,矩阵W则为空间权重矩阵,其元素排列方式表现出多样性(因为空间自相关可以多方向)。
引入以下“空间自回归模型”(SpatialAutoregression,简记SAR):
y=λWy+ε
其中,W为已知的空间权重矩阵(非随机),而空间依赖性仅由单一参数λ。
λ度量空间滞后Wy对y的影响,称为“空间自回归系数”(spatialautoregressiveparameter)。
此模型也称为“空间滞后模型”(SpatialLagModel)。
相邻地区的被解释变量(比如犯罪率)可能相互依赖,并最终形成一个均衡的结果。
又比如,假设以地区税收为被解释变量,则不同地区的政府出于相互竞争或博弈的考虑(比如,竞相吸引FDI),在制定本地区税收时,会考虑周边地区的税收水平。
假设W为前例的权重矩阵,则方程可写为:
⎛y1⎫
⎛0111⎫⎛
y1⎫⎛ε1⎫
⎛y2+
y3+
y4⎫
⎛ε1⎫
çy⎪
ç1010⎪çy
⎪çε⎪
çy+y
⎪çε⎪
ç2⎪=λç⎪ç
2⎪+ç
2⎪=λç
13⎪+ç2⎪
çy3⎪
ç1101⎪çy3⎪çε3⎪
çy1+y2+
y4⎪çε3⎪
çy⎪
ç1010⎪çy
⎪çε⎪
çy+y
⎪çε⎪
⎝4⎭
⎝⎭⎝
4⎭⎝4⎭
⎝13
⎭⎝4⎭
如果对此联立方程系统进行OLS估计,将导致联立方程偏差
(simultaneitybias)。
ii=1
由于空间依赖性,导致变量{y}n
之间互相影响,产生内生性。
更一般地,可在方程中加入自变量:
y=λWy+Xβ+ε
其中,X为n⨯k数据矩阵,包括k列解释变量;βk⨯1为相应系数。
此方程也称为SAR模型。
如果λ=0,则简化为一般的线性回归模型。
可通过检验原假设“H0:
λ=0”来考察是否存在空间效应。
对于空间自回归模型,常使用MLE估计。
首先,假设扰动项ε~
N(0,σ2I)。
n
其次,方程可写为
Ay
≡(I
-λW)y=
Xβ+ε
其中,A≡(I-λW)。
由于雅可比行列式J≡=
==A'=
A,根据
多维正态密度公式,可写出样本的似然函数:
L(y|λ,σ2,β)=(2πσ2)-n
2(abs
A)exp⎧-
1
2σ2
(Ay-
Xβ)'(Ay-
Xβ)⎫
⎨
⎬
⎩⎭
其中,abs
A表示行列式
A的绝对值。
对数似然函数为:
lnL(y|λ,σ2,β)=-nln2π-nlnσ2+ln(absA)-1(Ay-
Xβ)'(Ay-
Xβ)
222σ2
此最大化问题分两步。
第一步,在给定λ的情况下,选择最优的β,σ2。
第二步,代入第一步的最优β,σ2,选择最优的λ。
在第一步,由于β只出现于最后一项,故等价于使
(Ay-
Xβ)'(Ay-
Xβ)最小,即Ay对X进行回归:
βˆ=(X'X)-1X'Ay
=(X'X)-1X'(I
-
λW)y
β
0
=(X'X)-1X'y-λ(X'X)-1X'Wy≡
ˆ-λβˆL
0
其中,
ˆ≡(X'X)-1X'y
(y对X的回归系数),而
β
βˆL
≡(X'X)-1X'Wy(Wy对X的回归系数)。
只要知道λ,即可计算βˆ。
对σ2求偏导可得σ2的MLE估计:
σˆ2
=e'e=
(MXAy)'(MXAy)
nn
其中,e为Ay对X回归的残差向量,MX
灭矩阵。
≡In
-X(X'X)-1X'为消
由于Ay
=(I
-
λW)y,故
e=MXAy=
MX(I
-λW)y=
MXy-λMXWy
≡e0
-
λeL
其中,e0
≡MX
y(y对X的回归残差),而eL
≡MXWy(Wy对X的
回归残差)。
代入可得:
σˆ2
=e'e=
(e0
-λeL)'(e0
-
λeL)
nn
只要知道λ,即可计算σˆ2。
在第二步,将βˆ(λ),σˆ2(λ)代入对数似然函数,可得“集中对数
似然函数”(concentratedloglikelihoodfunction),它只是λ的函数。
由于λ出现在行列式A=
I-λW
,给计算带来不便。
可利用等式A
=∏(1-λvi)来计算,其中v1,,vn为矩阵A特征值
n
i=1
(eigenvalues)。
为保证扰动项协方差矩阵为正定,还须限制λ的取值为
1<λ<1,其中v与v分别为矩阵A的最小与最大特征值,
vminvmax
而vmin一定为负数。
min
max
对于MLE估计量的渐近协方差矩阵,通过信息矩阵来估计:
⎪⎧⎡∂2lnL⎤⎫⎪-1
I(θ)-1
≡-⎨E⎢⎥⎬
⎩⎪⎣∂θ∂θ'⎦⎭⎪
其中,θ=(λ,σ2,β)。
对于空间自回归模型y
=λWy+
Xβ+ε,解释变量X对y的边际
效应并非β,因为X对y产生作