指数分布随机图地进步.docx

资源描述

指数分布随机图地进步.docx

《指数分布随机图地进步.docx》由会员分享，可在线阅读，更多相关《指数分布随机图地进步.docx（22页珍藏版）》请在冰豆网上搜索。

指数分布随机图地进步.docx

指数分布随机图地进步

指数分布随机图的进步（p*）模型应用到一个大型社交网络

史蒂文·m·Goodreau华盛顿大学人类学和中心的部门研究人口与生态

文摘

最近的进步统计网络分析基于指数分布随机图的家庭

（ERG）模型进行推理的能力有了很大的提高在大社会的依赖

2002年2002年网络（Snijders,帕蒂森和知更鸟,Handcock2002Handcock2003Snijdersetal。

2006年,猎人etal.2005年,Goodreauetal.,2005年以前的论文这个问题）。

本文应用

先进的模型参数化和计算算法的考试结构中观察到一个青少年的友谊从纵向网络1681年的演员青少年健康研究（AddHealth）。

ERG的社会网络结构模型适合使用R包statnet及其充分性通过比较模型的预测与评估高阶网络统计观测数据。

这种友谊网络的常用的马尔可夫模型的依赖导致的问题简并度的讨论Handcock（2002、2003）。

另一方面,模型参数化介绍Snijdersetal（2006）和猎人和Handcock（2006）避免退化和提供

合理的适合的数据。

只是程度模型无法很好地捕捉观察网络结构;

那些做得最好包括条款都对外源性属性（等级和异构混合

自我报告的种族）以及内生集群。

网络模拟模型

很大程度上符合观测网络在多个高阶网络统计数据,包括

三角形的数量,规模最大的组件,整体可达性、分布

测地距离、程度分布和共享伙伴分布。

适应的能力

这样的模型对下属大型数据集以及推理过程生成

网络是一个重大进步领域的统计网络分析。

指数分布随机图（ERG）类第一次被提出作为一个社会方法模型网络结构几乎二十年前（1986年弗兰克和施特劳斯）,基于工作空间统计（Besag1974）。

建模类非常一般,因此在理论上能够捕捉各种经验的结构网络,允许进行统计推断的结构。

然而,大多数从事这个领域的工作

都集中在一个小的模型规范,最常见的马尔可夫图吗，弗兰克和施特劳斯（1986）。

最近的研究表明,这些常用的模型规范事实上并不适合捕捉过程潜在的许多经验网络,由于模型退化的问题（Handcock2002,2002）。

简并度可以被描述在短暂的现象似乎可以合理的模型

是这样一个坏mis-specification观测数据集作为观测数据几乎呈现

不可能在模型。

相反,社会进程模型封装的产量网络（如全部或空图,定性相异的观察

数据和事实上实质上无趣的。

简并可以更详细的讨论在知更鸟etal.（2006b）。

它是合适的,它可能没有证明这样进步的障碍。

在其他

领域,差拟合模型通常可以帮助完善知识的数据,分析的

模型成功地获取观测数据和失败可以帮助点的方法

后续的改进模型。

ERG的模型,但是,最大的可能性

估计模型参数配合使用马尔可夫链蒙特卡罗（采样程序,

和简并事实上经常阻止模型估计融合在有限的参数

估计。

使用近似替代技术,如MPLE估计（施特劳斯

和1990年Ikeda）不解决这个问题,而只是隐藏它。

缺乏这一事实

收敛性还可以获得各种特性的模型拟合结果算法不能帮助

很重要。

总的来说,这些问题解释ERG的缓慢的应用模型来实证

网络分析到目前为止,尽管他们的潜力。

以前的论文这个问题提供了一个介绍ERG建模方法

（罗宾斯etal.2006年）,研究更深入地退化,阻碍了背后的问题

这些模型的应用（罗宾斯etal.2006b）,并提供可能的解决方案

（罗宾斯etal.2006b,亨特2006）在本文中,我们的目标是应用这些发展

一大组（>1600年演员）的网络数据展示他们在进行实际应用

推理在复杂的依赖关系结构。

数据集:

添加卫生学校组42

我们这里分析的数据集是一个集从纵向研究的学校

青少年健康（AddHealth）。

AddHealth是一个分层校本的样本

7-12年级的学生。

以广泛的问卷调查对个人特征,如

在友谊网络模块。

学生们提供了一个清单所有学生名单

在学校的名字和独特的ID号,并要求列出五个最好的ID

男性和5个等级次序最好的女性朋友。

学生们自由提名少于五个

的。

他们也可以提名的朋友没有在学校（通过一个特殊的

代码）或在学校,但不包括在名单上。

这里的数据集包含两个

独立学校,大型公立学校多种族城市南部,一个包含

高中生（我们称之为高中）和包含成绩7-9日（另一所学校

初中）,担任高中的支线。

每个学校的学生

提供的花名册,并允许可供选择。

进一步的信息

的设计研究中可以找到Resnicketal。

（1997）和尤迪Bearman（1998）

和http:

//www.cpc.unc.edu/projects/addhealth。

这一分析,我们认为只有那些演员都完成了调查,

名单（n=1681）。

一个额外的489名学生的名单,但没有调查,

在参加调查的158名学生,但没有在名单或不当他们填写

自己的身份号码等方式不匹配的名单。

独特的总数

的学生在学校因此2328（更可能存在,但如果他们发现不了的

都没有采取调查名单）。

这个数据集的1681名学生

占72%,这一水平类似AddHealth学校一般（d.Schruth个人

沟通）。

尽管我们无法知道失踪学生的结构

关系是类似于在这项研究中,我们可以确定学生的平均入度

没有采取调查（3.3）和（3.9）来间接数据原始的性。

我们认为mutualized数据,包括优势只有两个演员提名另一个。

相互化进行实质性原因（双重提名领带作为一种验证关系）和一个实际的（一些网络之一

下面的统计数据,我们认为迄今为止只被定义和实现

间接关系）。

的数量在1236年产生的间接网络边缘,

暗示密度0.00087（1236/1412040演员对）和平均度1.47。

这些

1236年边缘代表2472弧的原始数据,或35%的6985个提名

学生在总,另外的65%没有回报。

解释mutualized

数据可能是复杂的,学生只能提名固定数量

朋友;更多的关系可能会出现相互学生被允许

提名任意数量。

这种效应是抑制的事实,53%（895/1681）

受访者不到提名最多的女性朋友和54%（916/1681）

提名不到最大的雄性。

外源性演员属性我们考虑等级,种族和性别。

学生了调查是自由离开这些空白,他们希望;为所有属性除了成绩

我们保留了空白的反应,考虑所有这些反应对于一个给定的属性

构成一个单因素水平属性在任何相关的分析。

级应用于

一套更广泛的网络比其他属性数据;因为这些统计数据不允许

对于缺失值,失踪的成绩被估算。

有十个学生1681人

离开他们的年级空白。

四的学生透露,至少有一个共同的朋友,和在每种情况下

他们的整个一年级的朋友。

这四个学生被分配的品位

他们的朋友。

剩下的6个,四个年龄中回答了这个问题,并被分配

模态年级的年龄（12岁=7年级,13岁=8年级,等等）。

剩下的两个,

谁没有可用的信息,被随机分配分数与概率

与年级的大小成正比。

我们种族”这个术语的变量是取自两个问题

在自认为种族和拉美裔血统。

拉美裔血统被认为是主要的;也就是说,

那些标识为拉美裔是归类为拉美裔不论种族,所有其他种族

类别代表西班牙血统。

我们都崩溃的答案除了白色,黑色

西班牙到一个类别其他在这些数据并没有考虑到他们的小

对某些类别的类内关系,从而防止收敛到有限的参数

对于一些模型。

外源性演员属性我们考虑等级,种族和性别。

学生了

调查是自由离开这些空白,他们希望;为所有属性除了成绩

我们保留了空白的反应,考虑所有这些反应对于一个给定的属性

构成一个单因素水平属性在任何相关的分析。

级应用于

一套更广泛的网络比其他属性数据;因为这些统计数据不允许

对于缺失值,失踪的成绩被估算。

有十个学生1681人

离开他们的年级空白。

四的学生透露,至少有一个共同的朋友,和在每种情况下

他们的整个一年级的朋友。

这四个学生被分配的品位

他们的朋友。

剩下的6个,四个年龄中回答了这个问题,并被分配

模态年级的年龄（12岁=7年级,13岁=8年级,等等）。

剩下的两个,

谁没有可用的信息,被随机分配分数与概率

与年级的大小成正比。

我们种族”这个术语的变量是取自两个问题

在自认为种族和拉美裔血统。

拉美裔血统被认为是主要的;也就是说,

那些标识为拉美裔是归类为拉美裔不论种族,所有其他种族

类别代表西班牙血统。

我们都崩溃的答案除了白色,黑色

西班牙到一个类别其他在这些数据并没有考虑到他们的小

对某些类别的类内关系,从而防止收敛到有限的参数

对于一些模型。

方法

ERG建模类定义的概率与给定组演员n网络:

gA的符号（y）代表任何可能的网络统计,在多个索引

统计数据包括在模型向量g（y）;在下一节我们将看到大量的例子。

ηA表示这些术语的系数;他们的价值反映了有条件的变化

日志的领带在gA每个单元的增加,领带将创建。

κ代表了

规范不变,经验值的总和（ΣAηAgA（y））与n演员在所有可能的网络。

除了最小的网络或简单的模型,这个常数禁止正常化

直接评估的概率为一个特定的网络通过矢量g（y）和η。

它还

抑制计算参数的最大似然值向量的η

观察到网络。

施特劳斯和Ikeda（1990）讨论使用逻辑回归计算

最大pseudolikelihood估计（MPLE）,虽然这是估计的质量

真正的最大似然可能贫穷与强劲的全球模型（Besag的依赖

1986年,Handcock2003）。

相当的和汤普森（1992）另一方面,提供方法

采用马尔可夫链蒙特卡罗（采样）作为一个通用评估工具的问题

类型和Snijders（2002）讨论了社交网络的使用。

获得的最大

η参数似然估计（标定）,我们使用逻辑回归二的

独立模式（因为结果MPLE估计是与真正的标定）

采样的二元模型的依赖。

间接网络,二价的独立

模型被定义为那些在P（Yij=Yij）独立于P（Ykl=Ykl）∀（i,j）≠（k,l）

演员属性条件;这样的模型通常由一个边缘的术语和组

条款计算的实例数量的边缘在演员与不同的属性

组合。

二进位依赖模型的例子包括那些涉及三角形、星形花

或学位的条款。

所有模型拟合和评估发生在statnet包,一组统计网络

分析R环境中的例程（Handcock等2004）。

这个包包含了

新模型规范讨论了早些时候论文这个问题以及许多

算法,优化发展迅速,数据拟合模型的过程

准确。

这些特性包括R的使用用户界面和数据操作

但对复杂的内存密集型计算;C更有效的稀疏存储方法

网络;使用混合算法,实现快速运动对初速

很远的地方和更精确的细化一旦关闭;使用建议的算法速度

链的数量级的混合物在常用简单的双肘。

访问计划和更详细的信息可以找到它的特性和使用

http:

//csde.washington.edu/statnet。

摘要MCMC-based估计过程,我们选择的连锁老化

100000年100000切换,采样样本大小和连续样本之间的时间间隔

1000切换。

链始于MPLE值η向量通过

逻辑回归。

链运行上面的长度（100000+10000*1000=10.1

百万的步骤）,新估计的η从链使用相当的和获得的

汤普森（1992）算法。

当时reinitiated链从这个更新的起点;

这个循环重复了五次获得的最终估计η为每个模型。

模型方面

ERG模型类一般;它包括无限的潜在网络统计数据。

这里我们关注统计中常见的文学（包括许多讨论

在早期的论文在这版）,理论上这些间接相关的友谊

数据,哪些是可行的计算网络的大小~1600演员。

重点是

相对“本地”统计（那些直接依赖于给定的概率优势

只有少量的另一对图）1,希望这些可以捕获

全球网络的结构。

等社交网络通常包含多个模型来捕获各种条款

工作流程同时在建立社会关系。

两个将军

选择特定的组合统计方法存在考虑社会

网络,在下一节中,我们使用。

第一个涉及的推导

组条件假设依赖的性质,往往通过Hammersley）

Clifford定理（Besag1974）。

这种方法的优点是,的确切性质

基础模型是显式的依赖。

一个常见的例子就是马尔可夫

依赖模型,弗兰克和施特劳斯（1986）,在其齐次形式导致的条件

边缘、三角形和一组恒星（,或等价于学位）。

另一个原因是部分

有条件的独立模型首先在帕蒂森解释说,知更鸟（2002）和扩展

经Snijdersetal。

（2006）和讨论这个问题（罗宾斯etal.2006b）。

这项工作

认为“意识到”的一种形式依赖一步比马尔可夫;包括马尔可夫

术语以及套术语的三角形和k-twopaths。

包括全套k-star、ktriangle

收益率和k-twopath术语大量参数和可能导致的问题

简并和难以解释。

相反,Snijdersetal。

（2006）提出这些分布参数形式（“交替k-triangle”、“交替k-star”,和“交替

k-twopath”统计数据）,减少了参数空间。

前两个条件

相当于几何加权（GWESP）和dyad-wise扁共享伙伴

共享合作伙伴（GWDSP）方面探索亨特（2006）。

第三股类似

关系几何加权程度（GWD）亨特（2006）,尽管在这里

小reparameterization涉及的关系而不是完全等价。

另一种方法是考虑统计和观察的许多可能的组合

这组合经验产生最适合一个给定的数据集。

这类似于各种

线性回归或其他形式的迭代模型选择广义线性模型。

这

方法允许极大的灵活性比较模型基于观察到对于一个给定的数据集

结构。

然而,考虑到复杂的交互的一些高阶术语,和

非线性的影响,一般的方法一个合身的模型通过能力

迭代添加或删除条款还不是很清楚。

例如,两个不同的术语

与反补贴的影响可能需要避免退化;添加任何一种可能

不能提供洞察包含两种模型的适用性。

然而,这种方法

可以,当结合理论基础和反复试验,取得成功

在模型适合一些大型、复杂网络（猎人etal.2005年,Goodreauetal.2005年）。

下面我们定义的每个组成部分条款出现任何模型。

模型

表达式是陷害一个对称矩阵的假设下给出我们的非指导性

数据。

我们首先定义一组变量:

•十六:

演员我属性的属性值

•Xva酒店:

设置所有演员有价值的属性

•:

我的演员

•:

共享合作伙伴对于演员的数量我和j的数量邻居他们的共同点

•统计:

k-edgewise共享伙伴

•统计:

k-dyadwise共享伙伴

我{}是指标函数,等于1如果附上声明是真的如果虚假和0。

考虑到这些,我们有以下网络统计我们考虑进入

我们的z（y）矢量不同的模型:

•:

边缘统计

•:

三角统计

•:

k-degree统计

•:

k-star统计

•:

边缘统计属性v级

•:

微分属性v级同质性统计

•v:

均匀同质性统计属性

•v:

绝对差统计属性

•:

几何加权统计

具有参数θ1

•几何加权沿边共享

θ2伙伴统计参数

•几何加权dyad-wise共享

θ3伙伴统计参数

L（y）、T（y）,Dk（y）和Sk（y）长期以来的网络文学和历史

熟悉。

Mv（y）,高压（y）,紫外线（y）和Av（y）把具体条款,捕捉的方式

演员的属性结构关系。

（y）模型主要影响Mv,允许每个级别

的一个属性,形成边缘有不同的倾向。

高压（y）模型一个单独的倾向

为每个属性水平形成关系成员在类属性,而紫外线（y）模型

单这样的群体内对所有群体的偏好。

Av（y）模型的趋势领带

概率改变单调的不同属性值的绝对值

增加两个演员,这个词只是为价值或序数属性定义。

统计u（y,θ1）,v（y,θ2）和w（y,θ3）表示参数的高阶术语

Snijdersetal。

（2006）,re-parameterized猎人和Handcock（2006）和猎人

（2006年,这个问题:

方程式。

14日,25日和26日）。

几何加权程度

u（y,θ1）代表一种参数的分布程度;v（y,θ2）代表一个参数

形式的集群,相当于交替的三角形。

最后,w（y,θ3）可以认为

的程度的结构等效参数形式（不解释

文献中讨论）,因为它认为演员可能会或可能不会被束缚在一个

另一个,但与各种数字相同的其他演员。

这学期是相当于

交替k-twopathsSnijdersetal。

（2006）。

注意,所有三个θ条件可以采取任何积极的价值。

看看这个范围

代表,考虑v（y,θ2）。

随着θ2值接近无穷大,v（y,θ2）统计

方法三次图中三角形的数量。

2θ2接近0,v（y,θ2）

方法的边缘图中的数量是至少有一个三角形的一部分。

后一种

统计还包含二进位的依赖,但在一种强烈限制,一旦一对

演员在一个三角形,他们没有特别倾向于形式。

θ2可以设置

之间的任何值获取集群的规模和大小;θ2的价值

最大化模型也可以估计可能性的猎人和使用方法

Handcock亨特（2006）和（这个问题）,尽管这可以显著增加必要的

计算时间。

θ1θ3同样可以估计和被认为是固定的。

在分析

下面我们采用一个固定的值为0.5时为所有三个θ条件。

这是基于探索工作

对于一些可能性降低模型（本和其它规模较小的学校）在多个水平

θ条件,确定表面可能性相当持平在0.25-1,和

最大的通常是接近0.5。

没有使用Free-varyingθ值,这种方法

所有这里给出模型不收敛。

理论上推导上述条款的组合,我们认为包括

齐次马尔可夫模型,弗兰克和施特劳斯（1986）,包括统计数据

L（y）、T（y）和Sk（y）k∈{2…n-1}3。

我们还研究了降低一般马尔可夫模型

检查网络文学（例如知更鸟等,2006）,仅包含L（y）,T（y）,

S2（y）和S3（y）。

鉴于目前的兴趣只是程度的模型在某些分支网络

文学,我们也配合模型包含条款Dn（y）的分布

完全在一个完全饱和的非参数的形式捕捉,看看这个模型适合

网络的总体结构。

这个公式表示的非直接模拟

讨论了Snijders和van法新社（2002）。

饱和程度模型不一定适合

分布一样好或者比任何程度的各种参数化程度

目前分布在文学讨论。

我们也采用的方法将每一组提出的条款添加到当前的模型中,

看到收益率最适合改善模型,并选择添加到模型中

在开始下一个迭代模型建立。

其中的一些条款的功能

其他人（例如紫外线（y）是高压的总和（y）所有）,包含一个消除了

考虑在随后的回合。

在每一个模型对我们提出的列表

统计太广泛,和考试的数据表明,一些术语

显然根本;我们开始只有这些方面明显的核心重要性

减少的数量模型来适应,如所示。

模型选择和拟合优度

为了检验拟合优度模型,我们使用三个一般方法。

1。

检查退化和模型收敛:

最低要求一个模型

适合是参数估计收敛在有限的参数值。

它

还必须由,不把所有的概率质量几

网络完全不同于观察到的网络,如一个完整的或空的网络。

2。

模型之间的比较Akaike信息准则（AIC）。

的模型,

表现出二元独立可以符合标准逻辑回归,收益率（殖利率）

的可能性度量模型。

这些模型二的依赖必须

符合采样,也收益可能性的估计。

这些可能性

价值观只是近似AddHealth因为并非所有图形都是可能的

数据集;限制数据收集十的程度,例如,

这样的一个形式的限制。

我们忽略这种影响,使用给定的可能性

另类投资会议为了比较计算模型,较低的AIC意味着意义重大

增加模型。

注意,模型变得越来越复杂和

包括更多的二进位的依赖条件,近似的可能性

越来越不准确（在当前方法）,和额外的方法模型

选择必须找到。

为更多信息使用AICERGM模型

健康,看到猎人etal。

（2005）。

3。

拟合优度高阶统计绘图。

这种方法是详细描述

在猎人etal。

（2005）。

根据需要生成新网络的逻辑

概率分布所隐含的合适模型。

因为正常化常数

合适的模型仍然存在,这样做必须使用相同的采样方法

在估计过程。

然后计算感兴趣的统计

最初的网络和网络生成自模型,而这些

是比较的策划。

如果原始网络与网络不一致

产生的模型,这表明网络的结构不同

这些预测的模型,该模型不是很健康。

可以将多个数据

比较直观地提供详细信息系统的方式

数据和模型的预测有所不同。

对于这种方法,网络统计我们比较包括度分布（在所有

演员）,共享合作伙伴分布（所有边缘）和测地距离分布

（所有双）。

学位和测地距离是众所周知的在网络文学;

共享合作伙伴,另一方面,是一个相对较新的概念捕捉的集群模式

在一个网络。

共享合作伙伴价值优势（spij统计前面定义）

的演员两个演员在数量挂钩。

这个发行版在所有关系

不仅提供了一个照片级的聚类也是它发生的尺度。

这些条件为log-odds为了更大的可视性的规模

覆盖范围的值。

尽管我们选择分布三个统计数据比较,

更一般的方法,任何感兴趣的数据可能被认为是在图形、和

选择这样的统计数据可能是由网络理论和一个的组合

调查员的个人目标。

结果

我们开始与伯努利模型（模型1）,只有一个词来捕获密度

的网络。

这个模型是表1中列出的AIC;参数估计在表

2（连同他们的标准错误估计使用的方法相当的1994）,和

拟合优度图如图1所示。

毫不奇怪,这个简单的模型并没有捕捉到

大数据的原始网络相比拟合优度的情节。

我们接下来考虑标准的马尔可夫模型（模型2）。

该模型不收敛

有限的参数估计;在多个运行在不同条件下三角的价值

参数跑到正无穷大和其他条款负无穷大;真正的最大值

可能发生在无限的参数,或观察到的网络下不太可能

有限的最大似然参数模型,该模型拟合过程不能

趋同。

模型3中,减少了马尔可夫模型,收益率相同的结果。

模型4,

均匀的realization-dependentSnijdersetal.（2006）模型,提供了很多

更好的结果,其参数估计都包含在表1和图的拟合优度

统计图1b所示。

模型收敛,很大程度上是能够捕捉

分布的程度和共享的合作伙伴,网络特性,它是使用一个简单的建模

参数化的形式。

然而,该模型的高阶结构路径的能力

长度是有限的。

一个完全的模型参数化程度分布模型（5）

但不包含其他方面抓住了度分布完全（我们会惹上麻烦

如果它没有）;但我们也完全了集群和测地线（图1c）;

测地线的长度,它是进一步从比伯努利源数据模型。

甚至

捕捉度完美很少会告诉一个其他相对当地（共享的合作伙伴

分布）和全球网络结构（网格状分布）。

既然没有一均匀模型捕获所有的网络结构

考虑,我们求助于迭代添加条款取决于他们的过程

改进模型。

我们回到伯努利模型作为起点。

混合

矩阵的伙伴关系由种族和等级（图中未显示）显示withinrace的强烈倾向

和within-grade友谊。

无疑是一个强大的元素混合在这些属性

在网络的形成,从而可能被包括在任何准确的模型

捕获网络生成过程。

因此,首先我们只考虑相关的六个模型

这两个数据:

模型6:

g（y）={MraceL（y）,（y）}的∈{黑人,西班牙裔,其他}与白色

参考类别

模型7:

g（y）={MgradeL（y）,（y）}的∈{8、9、10、11、12}7年级作为参考

类别

模型8:

g（y）={HraceL（y）,（y）}的∈{白人,黑人,西班牙裔,其他}

模型9:

g（y）={HgradeL（y）,（y）}的∈{7,8,9,10,11,12}

模型10:

g（y）={L（y）,Urace（y）}

模型11:

g（y）={L（y）,Ugrade（y）}

所有这六个模型是独立的模型,也就是说,

展开阅读全文