第四讲复杂网络中的社团结构教学课件.pptx

资源描述

第四讲复杂网络中的社团结构教学课件.pptx

《第四讲复杂网络中的社团结构教学课件.pptx》由会员分享，可在线阅读，更多相关《第四讲复杂网络中的社团结构教学课件.pptx（54页珍藏版）》请在冰豆网上搜索。

第四讲复杂网络中的社团结构教学课件.pptx

,第四讲复杂网络中的社团结构,李二艳2009-10-24,大纲,研究背景与意义Kernighan-Lin算法谱平分法GN方法Newman快速算法派系过滤法,研究背景与意义Kernighan-Lin算法谱平分法,GN方法Newman快速算法派系过滤法,随着对网络的研究，人们发现许多实际网络都有一个共同的性质，即为社团结构，也就是说整个网络是由若干个“群”或“团”构成的，每一个社团内部的节点之间连接相对非常紧密，但是各个社团之间的连接相对比较稀疏。

一个小型的具有社团结构性质的网络示意图,2）ComparethestructureoftheWWWnetworkwithacristallatticeforexample.,电力网,WWW,因特网,复杂网络中社团现象技术网络,社会网络,朋友关系网,科学引文网,交通运输网络,航空网,道路交通网,生物网络,神经网络,蛋白质相互作用网络,基因网络,代谢网络,SantaFe研究所的科学家合作网,经济物理学科学家合作网,尽管网络是系统高度抽象的离散数学描述，但是因为其规模的庞大和系统连接的多样性也使得研究其结构和功能变得复杂。

社团（community）化是一种揭示系统结构和功能之间对应关系、降低对复杂系统认识难度的方法,社团结构的定义

（1）定性的定义,：

表示节点i连接子网络V中其他节点的边的条数：

表示节点i连接子网络V外其他节点的边的条数在此基础上给出社团结构的两种量的定义。

内外比：

社团内部的边与连接该社团的外部的边的比（值2）定量的定义考虑网络G中的子网络V中的节点i，,强社团结构,如果对任意节点i，子网络V满足,即该社团内任何一个节点与这个社团内部其他所有节点的连接，比它与该社团外部的所有节点的连接要紧密，那么称V为该网络的强社团结构。

弱社团结构如果子网络V满足即该社团内节点间的相互连接比这些节点与社团外部的节点的联系更加紧密，也就是说，社团内部的边数之和大于社团边界上的边数之和，那么称V为该网络的弱社团结构。

从确定性分解到模糊分解（揭示网络的重叠的模块化结构）从一次性分解到层析分解（揭示网络的层次的模块化结构）,13,复杂网络的社团化计算方法,模式识别法定随义机节游点走相似度扩散核拓扑重叠矩阵最短路径邻接矩阵,分类或者聚类,其他方法非负矩阵分解模糊K-均值K-均值层次聚类,图结构法GN算法计算介数不断删除介数较高的点最优化模块度,模块度方法,混合模型法,极值优化法Kernighan-Lin算法,谱平分法,K-团模块搜索,研究背景与意义Kernighan-Lin算法谱平分法,GN方法Newman快速算法派系过滤法,Krnighan-Lin算法（1970年）是一种试探优化算法，它的前提是：

已知网络划分为两个大小已知的社团,1、算法的基本思想：

首先引进增益函数Q，（其中Q定义为两个社团内部的边数之和减去连接两个社团之间的边数），然后寻找使Q值最大的划分方法,2、算法的具体步骤：

步骤1将网络中的节点随机的划分为两个大小已知的社团步骤2考虑所有可能的节点对（其中每个节点对的节点分别来自两个社团），对每个节点对，计算如果交换这两个节点后得到的Q的增益然后交换使得最大的节点对，同时记录交换以后的Q值。

（规定：

每个节点只能交换一次）步骤3重复步骤2，直到某个社团内的所有节点都被交换一次为止。

注：

在节点的交换过程中，Q值并不一定是单调递增的，不过，即使某一步的交换会使Q值有所下降，也仍然可能在最后步骤中出现一个更大的Q值。

3、实例分析20世纪70年代初，Zachary用了两年的时间观察美国一所大学中的空手道俱乐部成员之间的关系。

基于这些成员在俱乐部内部及外部的社会关系，构造了它们之间的关系网。

空手道俱乐部内部成员的关系网络该俱乐部的主管和校长发生了分歧，结果该俱乐部分裂成了以主管和校长为核心的两个小俱乐部。

4、算法缺陷Kernighan-Lin算法要求必须事先知道该网络的两个社团的大小，否则，很可能不会得到正确的结果。

研究背景与意义Kernighan-Lin算法谱平分法,GN方法Newman快速算法派系过滤法,1、基于Laplace矩阵的谱平分法2、基于标准矩阵的谱平分法,1、基于Laplace矩阵的谱平分法

（1）Laplace矩阵一个n个节点的无向图G的Laplace矩阵是一个n*n维的对称矩阵，记为对角线：

是节点i的度非对角线：

L也可以表示为其中，K是一个对角矩阵，对角线上的元素为对应的各个节点的度，A为该网络的连接矩阵。

/,矩阵L有一个特征值为0（平凡特征值），其对应的特征向量为,检验：

所求特征向量满足显然下式成立,谱平分法的理论基础：

可以证明L的非平凡特征值所对应的特征向量的元素中，同一个模块内的节点对应元素是近似相等的。

如果网络能够分成两个模块，则根据L的非平凡特征向量元素的正负符号可以将网络分解。

正的元素属于同一个模块，而负的元素属于另一个模块。

（2）基于Laplace矩阵谱平分法的基本思想前提：

已知网络仅分成两个社团首先求出网络的Laplace矩阵的第二小的特值，据对应的特征向量中的元素对节点进行分类，正的元素对应的节点属于一个社团，负的元素对应的节点属于另一个社团。

选取的原因：

第二小特征值可以作为衡量谱平分法的效果的标准，它的值越小，平分的效果就越好。

称为图的代数连接度。

（3）算法的缺陷谱平分法的最大缺陷就是每次只能将网络平分，如果要将一个网络分成两个以上的社团，就必须对子社团多次重复该算法。

2、基于标准矩阵的谱平分法（Capocci算法）,传统的谱平分法需要事先知道社团的个数，为了克服这一缺陷，Capocci等人在传统的谱分析方法上提出了另一种算法，这种算法对社团结构不适很明显的网络也能取得较好的效果。

，其中，K是对,

（1）算法分析Capocci算法基于标准矩阵角线元素为各个节点度的矩阵，A为连接矩阵。

分析：

利用行标准化的转换可以得到矩阵N的最大特征值为1，相应的特征向量称为平凡特征向量。

对一个社团结构比较明显的网络，不妨设社团总数为g，则矩阵N存在g-1接近1的第一非平凡特征值，其他的特征值与1差距明显，这g-1个特征值对应的特征向量（第一非平凡特征向量或第二特征向量）存在一个结构特征：

在这g-1个特征向量中，同一个社团内的节点相应的元素非常接近。

网络的社团结构比较明显时，这些特征向量的元素呈阶梯分布，阶梯的等级数就是社团的数目g。

算法思想：

对于给定的网络，首先计算其标准矩阵N，然后求解其接近于1的g-1个特征值对应的特征向量，通过研究这g-1个特征向量中的任意一个就可以将网络中的节点划分为相应的g个社团。

（2）特征向量的求解方法Capocci等人提出利用优化的方法来解决矩阵的特征向量的问题，Capocci等人基于加权网络分析了这种算法，假设网络的连接矩阵为,目标函数：

表示为各个节点定义的,其中，n为网络的节点数，一个变量。

约束条件：

（1）其中是一个已知对称矩阵M中的元素。

求得向量x对应着第二特征向量，这是一个常量.,函数z对所有满足

（1）式的x的驻点为

（2）其中，,D是一个对角矩阵，对角线上的元素为与对应节点连接的各边的权值之和。

说明：

满足目标函数的x一定满足

（2）式。

不同的矩阵M对应着不同的特征向量问题,时，,时，有,，在无权网络，此时对应一个N在无权网络,，,如：

中矩阵；当中,，这对应着一个Laplace矩阵。

因此，该最优化方法求得的x即为所求特征向量。

（3）实例分析利用该算法计算由19个节点构成的网络及网络对应的标准矩阵的第二特征向量如图：

由19个节点构成的三社团网络,左图对应的标准矩阵的第二向量中各元素的分布情况,（4）算法缺陷,这种方法仅仅适用于社团结构非常明显的网络，当网络的社团结构不是很明显时，第二特征向量接近一条连续曲线，此时就不能只通过研究一个第二特征向量中的元素对网络进行划分了。

（5）算法的改进当网络的社团结构不是很明显时，Capocci等人提出了连接参量，通过连接参量比较若干不同的特征向量中的相应元素，可以获得网络的社团结构。

连接参量表示如下：

表示对若干第一非平凡特征向量中相应的元素求取平均值，越大，节点间连接程度越好，根据即可获得网络的社团结构。

一般而言，对于大型的复杂网络只要对少量的特征向量求平均值就可以获得好的效果。

研究背景与意义Kernighan-Lin算法谱平分法,GN方法Newman快速算法派系过滤法,1、GN方法基本思想,定义：

边介数是指经过每条边的最短路径的条数。

GN方法的基本思想是不断的从网络中移除介数最大的边。

GN算法的基本流程：

步骤1计算网络中所有边的介数（主要步骤）。

步骤2找到介数最高的边并将它从网络中移除。

步骤3重复步骤2，直到每个节点就是一个退化的社团为止。

2、GN算法的实现假设一个图的节点数为n,边数为m，利用广度优先搜索就可以得到一个节点与其他节点间的所有最短路径。

所有这些最短路径构成最短路径树。

根据源节点与其他节点间最短路径的条数，分两种情况进行讨论。

情况一：

每个源节点与其他节点之间只存在一条最短路径,步骤1找到这棵树的叶结点，即那些不被任何其他节点间的最短路径经过的节每点一，条与叶结点相连的边赋值为1。

步骤2从离树的源节点最远的一条边开始逐步上移，依次为每条边赋值,其值为紧接在该边下的所有邻边的值的和再加1，重复步骤2直到遍历这棵树的所有的边。

步骤3对所有可能的源节点重复该过程，然后把这些边每次的权值相加，最终结果即为所有节点对之间最短路径的边介数。

边介数的计算,情况二节点对之间存在若干条等长度最短路径。

此时的结构并非是一棵树了（如图），在这种情况下，为了保证算法的正确性，需要添加其他步骤：

计算源节点到其他各节点的最短路径的条数利用这些条数为各条路径增加一个相应的权值（若i、j之间存在n条最短路径，则每条路径的权值都为1/n）。

对所有源节点重复上述过程，将每次的权值相加，就可以得到所有的边的总介数。

（1）计算从源节点s到其他各节点的最短路径的条数（wi）定义源节点s的距离，权值,，权,对每个与源节点毗邻的节点i，定义其距离为值对于与这个节点i任意相连的节点j，分下列三种情况讨论：

（a）如果该节点并没有指定距离值，则指定其距离为权值为,，该节点的权,，直接转向步,如果该节点已经指定了距离值，且值变为如果该节点已经指定了距离值，且骤。

重复执行第步，直到不存在其本身指定了距离值而相邻节点没有指定距离值的节点为止。

说明：

di表示从源节点到节点i的距离wi表示从源节点到节点i的最短路径的条数,a,b,c,d,e,f,g,例,

（2）为各条路径增加一个相应的权值找到所有的叶节点t。

对每个与叶结点t相邻的节点i，定义从节点t到节点i的边的权值为,从离源节点最远的边开始往上依次计算，对于连接节点i和节点j的边（节点i离源节点较近），将所有与该边相邻并位于其下方的边的权值相,，最终,加，把其和加1再乘以的值作为该边的权值。

重复步骤，直到遍历所有的点。

边介数的计算,对所有n个源节点都重复上述过程，将每次所得的权值相加，就可以得到所有边的总介数。

3、GN算法的衡量标准GN算法存在一个缺陷，即它对于网络的社团结构并没有一个量的定义，在不知道社团数目的情况下，GN算法不知道分解要进行到哪一步终止。

为了解决该问题，Newman等人引进了一个衡量网络划分质量的标准模块度。

考虑某种划分方式，此时将网络划分为k个社团，定义：

对称矩阵E=（eij）,eij表示网络中连接两个不同社团的节点的边的在所有边（原始网络）中所占的比例，这两个节点分别位于第i个社团和第j个社团。

矩阵中的对角线上各元素之和它表示网络中某一社团内部的边在所有边中所占比例。

每行元素之和它表示与第i个社团中的节点相连的边在所有边中所占比

展开阅读全文

第四讲 复杂网络中的社团结构教学课件.pptx

第四讲复杂网络中的社团结构教学课件.pptx