第8章链接结构分析子系统设计及核心算法要点Word文档下载推荐.docx
《第8章链接结构分析子系统设计及核心算法要点Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《第8章链接结构分析子系统设计及核心算法要点Word文档下载推荐.docx(25页珍藏版)》请在冰豆网上搜索。
自由访问的网页;
传统形式的静态页面;
随用户查询需求在服务器端实时生成的动态页面;
用Ajax技术生成的URL相同但内容千差万别的页面;
(2)超链接的界定,存在诸多困难;
“博客日历”,每个日期都是一个超链接。
服务器端自动生成的超链接VS网页作者手工编辑添加的链接。
GWeb(V,E)的节点集合规模通过域名注册服务商可统计网站、域名数量且较为准确;
统计网站涉及的网页数目就会面临上面提到的问题;
研究中通常用搜索引擎的索引规模来估算万维网链接图的节点规模;
没被任何一个搜索引擎收录的网页,被用户访问到的可能性微乎其微;
2008年7月,谷歌索引量1万亿网页,一定程度上反映了GWeb(V,E)节点集合的规模。
GWeb(V,E)的边集合规模估计边集合规模更困难;
超链接的添加不需要登记、备案,各大搜索引擎也很少公布统计数据;
只能通过实验性万维网语料库的相关数据对GWeb(V,E)的边集合规模有一个概括性的认识;
AltaVista语料库,链接关系图包含2.03亿个网页、14.66亿条链接。
Clueweb09语料库,链接关系图包含的节点数为1040809705个,对应的出链接数为7944351835个。
sogouT语料库,链接关系图包含1.39亿个网页、33.4亿条链接。
从这些语料库,可以估计,边集合的规模要大于节点集合的规模,约为节点集合规模的几到几十倍。
8.1.2万维网链接图的连通情况
定义:
导出子图
给定G=(V,E),如果存在另外一个图&
=(/©
),满足V包含于V,E,包含于E,则称G,是G的一个子图。
特别地,如果V/包含于V,且E,包含了在节点子集V/之间的所有边,则称G,是G的导出子图。
强连通子图
给定一个有向图,该有向图的一个强连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和V,都存在一条路径使得从u
可以访问到v。
性质:
1、一个有向图中可有多个强连通子图。
2、强连通子图之间不存在公有节点;
否则可以合二为一。
对万维网连接图,每个强连通子图都代表着构成该子图的节点是相互连通的,通过超链接通过一个网页可访问另一个。
弱连通子图
给定一个有向图,该有向图的一个弱连通子图是指由一部分节点组成的一个导出子图,对于该子图中其中的任意两个节点u和V,都存在一条无向路径使得从u可以访问到V。
对于万维网链接图,重点考察其包含的强、弱连通子图的规模分布情况,借此了解整个链接图的拓扑结构和连通情况。
2000年,Broder的研究成果,万维网链接结构图的强、弱连通子图的规模
分布情况如下图所示
300000
10000
SCCdistnburion
000
00
o
WCCdistribution
le+07
le+06
100000
1O0G
10Q
10
I
Componentdistribution*
Powerlaw^xponeTi;
2.54
110100100000sizeofcomponent
u.
g]8.2万錐网链接图中强、弱连通子图的规模分布情况
图中,横轴为连通子图规模,纵轴为连通子图数量;
横轴、纵轴使用对数坐标轴。
可以看出强连通子图、弱连通子图的规模分布规律基本相同;
设连通子图规模为Size,具有规模Size的连通子图的数目Number近似满足;
)og(Number)=—*2+54•log(Size)+C
指数形式表示为:
Number=Cz•Size-'
-11
几点结论:
规模大的连通子图数目远小于规模小的连通子图数目。
规模最大的连通子图所覆盖的网络资源数量,占网络资源总量中相当比例。
基于链接结构抓取,很难抓取到网络环境中所有数据,但通过抓取规模较大的连通子图可获取最主要部分的数据。
规模最大的强连通子图,其节点规模达到560余万,此连通子图在Broder
研究的网页集合总规模中占有近28%的网页。
以此连通子图为中心,考察其他网页与此连通子图的链接关系,可以对整个网络页面的链接结构关系有一个清晰的认识。
根据Broder的研究结论绘制的万维网链接结构示意图如下图所示。
Others29.9%
图万维网链接结构图
Core部份
规模最大的强连接子图;
IN部分
所有链接到Core中网页,且同时不被Core中的网页所链接的网页集合;
OUT部分
所有被Core中的网页所链接,且同时不链接到Core中网页的网页集合;
Others部分
剩余的网页集合。
万维网链接和连通结构概貌
从IN中任何网页,都可以链接到Core中网页,进而可访问OUT中任何网页。
IN、Core、OUT之外网页,一部份与IN、OUT有链接关系,另一部分与IN、
Core、OUT不相连的孤立点或点集合,规模约为所分析网页总数的8.2%。
万维网链接结构以Core为核心,构成了“领结”形式的结构。
8.1.3万维网链接图的入度和出度分布
万维网链接图的入度、出度分别反映了某节点被其他节点链接,以及链接到其他节点的情况。
万维网链接图GWeb(V,E)的入度、出度分布符合幕律;
入度为Indegree的网页数目N(Indegree)近似满足:
Indegree)=C•Indegree-0
出度为Outdegree的网页数目N(Outdegree)近似满足:
N(Outdegree)=C•Outdcgree'
^
其中a、B均为值大于零的参数,而C与&
为常数
Broder的实验结果如下图所示。
le+10
In-degree(May99,Oct99)disir.
Out-dcgrce(May99,Oct99)d]str.
MUepKltJ:
*qEnll
le+09-
!
t+O8:
i-
]e+07-
le-^06-]00000-
10000「
1000-
ln4iegree(May99)
卩owerlaw,exponCTiL2.09
k-defiz«
e<
Oct99}
Powerlaw,exponent2.09
器啓djo-JJJLunLl
le+JO
le+09
le+O8
le+06lOOOOO
■■J
100
110100100000
J
l(j
301001000out-degree
(a)⑹
图吐斗万维网链接图中入度、出度的分布惜况
8.2超链接结构分析的基础
超链接:
两个网页或网页的两个不同部分之间的一种指向关系,源网页是指包含超链
接的网页,目标网页是超链接所指向的网页。
超链接HTML格式:
<
AHREF-"
http:
//www,tsinghus.edu+cW清华大学主页<
/A>
超链接的特性
如果存在超链接L从页面Psource指向页面Pdestiny,则Psource与Pdestiny
满足:
特性1:
内容推荐特性
页面Psource的作者推荐页面Pdestiny的内容,且利用L的链接文本内容对
Pdestiny进行描述。
特性2:
主题相关特性
被超链接连接的两个页面Psource与Pdestiny的页面内容涉及类似的主题。
特性1说明:
入链接个数是页面受其他页面推荐程度大小的标志,入链越多,该页面受其他网页作者的推荐越多,其网页内容质量高。
入链接个数越少,说明该页面不被其他网页作者推荐,意味着页面内容或组织形式不受欢迎。
链接文本起到对网页内容描述的作用,由于描述来自他人,通常被认为是对网页内容更加客观的描述。
这就在页面质量与超链接结构图的拓扑关系间建立了联系,为页面内容质量评价提供了一种不基于内容的方式。
HITS算法、PageRank算法是依据该特性设计的。
特性2说明
与特性1相比,特性2的重要程度、适用性低一些;
PsourcePdestiny页面内容相关的可能性要大于随机抽取的两个页面;
超链接表示的不仅是内容相关关系。
万维网的超链接关系比特性1、特性2描述的复杂。
导航栏链接源、目标页面的作者相同,不是内容推荐关系,而是方便用户访问的设置。
可以认为符合特性2,显然不符合特性1。
广告链接内容推荐特性、主题相关特性都无法得到保证(尤其是主题相关性)。
方面变化快、时效性强,对链接结构分析造成了相当的困难。
版权、注册链接
版权信息、注册信息往往以超链接的形式存在,以便查阅;
这类超链接数目大;
不符合超链接应具有的两个特性。
相当多超链接不符合超链接算法设计中的假设
各种链接结构分析算法在真实环境中无法单独被用于网页质量评估改进算法还是可以为页面质量评估提供参考;
数据清理后的近似理想环境中,还是可以发挥作用。
本章,假设万维网结构中的超链接满足以上两个特性。
8.3HITS算法的基本思路及实现
HITS算法:
HITS是Hyperlink-lnducedTopicSearch的缩写,基于超链接推演的主题搜索算法。
核心思想;
对网页的“内容权威度”、“链接权威度”进行评价;
内容权威度(AuthorityValue):
网页本身内容的受欢迎程度;
链接权威度(HubValue):
网页链接到其他受欢迎资源的程度例:
学术论文
内容权威度:
内容质量比较高、创新性较强、对学科发展能起到较大的推进作用。
链接权威度:
对某个特定领域进行了较为详尽的调研,能够介绍相当数目的内容
质量高的其他论文和研究工作。
网页内容权威度:
与网页提供的内容信息质量有关,被其他网页引用得越多,其内容权威度越
网页链接权威度:
与网页提供的超链接质量有关,网页链向内容质量高的网页越多,其链接权
威度越高。
HITS算法所要解决的问题
对用户提交的大多数查询,搜索引擎都会返回大量的相关查询结果;
大多数用户倾向查找出结果集合中对获取信息最有价值的那一部分网页;
算法的输入:
搜索引擎返回的与查询主题在内容上相关的结果集合;
算法的输出:
对结果集合中网页的内容权威度、链接权威度的评价。
HITS算法实施的阶段:
1、对用户输人的查询主题,通过搜索,获取内容相关的网页集合,适当扩展网页集合;
2、通过“迭代一收敛”过程,计算网页集合中每个页面的链接权威度与内容权威度,输出按链接权威度、内容权威度排序的结果列表。
给定查询主题,构造主题子图过程:
1、用搜索引擎得到查询主题的结果集合R,称为根集(RootSet);
2、将R所指向的网页集合以及其他指向R的网页集合包含进来形成集合S,称
为基本集合(BaseSet。
为控制图的节点数量,施加的控制:
搜索引擎返回结果数量大,将其限制在一个小的范围t内,如设置t为200;
某个网页的链入网页的数量大,将其限制在一个给定的范围d内,如设置d为
50。
为了消除导航用链接的影响,删除站内链接(即超链接的链源和链宿都在同一个主机上)。
在构造完主题子图之后,可以通过迭代算法来计算出网页的链接权威度、内容权威度。
网页内容权威度、网页链接权威度间为相互加强的关系:
具有较高网页链接权威度的网页应该指向较多的网页内容权威度高的网页;
高网页内容权威度的网页应该被多个高网页链接权威度的网页所指向。
对网页i,令
ai:
内容权威度;
hi:
链接权威度;
B(i):
网页i的入链接集;
F(i):
网页1的出链接集;
则有:
色=丫bJ
h\=为勺
例:
页面1的内容权威度、链接权威度
□1=/心十心+力I儿=心+化+©
I操作:
计算内容权威度;
O操作:
计算链接权威度;
q:
p
对权值进行规范化
规范化内容权威度的公式:
规范化链接权威度的公式:
迭代地进行I操作、O操作,直到最近两轮迭代的规范化内容权威度、链接权威度的差异很小,则认为已收敛。
输入A).G是链接页面的集合,k是一个口然数
令辽我示矢量(1.UH1)6RH
Whili||—a(_|||—||h{—力$_[||O,do对(如一“h)应用I操作级获得新的“;
对(◎;
申儿J应用()操作号获得新的h\标准化auihority值申获得a{标准化hub值/二得到九
End
返回(仆加)
HITS算法处理的对象个数相对较少,一般也就在几万个以内,计算速度相对较快。
因为它是面向查询的算法,对用户响应的时间要快,所以一般情况下只是求出次优解就可以了。
在Kleinberg的实验中,循环迭代20次,就可使前C个(C取5〜10之间)网页排序足够地稳定了。
针对结构图,计算每个网页的链接权威度、内容权威度
解:
根据上图构造主题子图V={A,B,C},邻接矩阵E={<
A,A>
〈A,
B>
<
A,C>
B,A>
B,C>
C,B>
},表示为
[
r
E=
由此得到英转宣矩阵为
0_
Er=
_1
(口,吗,
=E'
(h吕*hR、h广
),
(A
a*hfi»
h('
)口h*口厂〉
因此有,
%
=ftA+叽.ati=
+hf•
=flA+叽
h\
=ClA+WB+etc*
=
aa
十»
/:
(=3
初始化吋.令5=%
=ac=hA=hli=h
「=
1.
第一次迭代「il•算心值:
—2^Up=2?
de~2
计算&
值:
占丸=6申方舟=4.力g=2为简便计算,釆用最大值的规范化方法。
规范化S
5=1,◎月=1*ac=1规范化b
__2_1
继续迭代・曲至收敛。
最后:
5=1,g=O*732,ac—1
hA=l9论=5732.Ac=0.268
HITS(Hyperlink-1nducedTopicSearch)算法
(1)选取网络信息检索系统的结果集合R
将尺賦所指向的网页和指向的网页①枸成的链接结构图称为G。
对于G中的每一个节点心设和分别是其链接权威度和内容权威度,向量H和才分别为G的链接权威度和内容权威度结果向凰°
(2)设定即:
对G中每一个节点心设定其初始值(总)和A⑹的均为1.
(3)Fori=
1对G中的每一个节点捍,
A⑷&
)=另〔称为I操作)
Hu.so
'
i
2对G中的每一个节点心
H⑷5)=⑷〔杓〉(称为0操作)
3将Hw(n)和A⑷〔UWG)作规范化处理,使尸=1,工(H⑹[<|尸=K
〔4)当结果向量目和/未收敛时,返回(3)^H和A收敛时,输出算法所计算出的G中每一个节点贰的和的结果°
8.4PageRank算法的基本思路及实现
PageRank算法:
拉里•佩奇(LarryPage)等人提出;
根据WEB超链接关系对网页重要程度进行估计;
2008年1月申请美国专利,同年在论文“TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine中公开;
将从页面A到页面B的超链接作为A向B的一次投票,但不是简单地统计票数来衡量质量高低,还要考虑投票者因素,较“重要”网页的投票会更受重视。
PageRank基于“从许多优质网页链接过来的网页,必定还是优质网页”的思想判定网页的重要性。
PageRank衡量“网页质量”的方式
“质量”定义有很强的主观性;
从时效性、页面结构组织、独特性等角度定义;
HITS算法的“链接权威度”与“内容权威度”;
PageRank用户随机浏览互联网时访问到某个页面的概率;
随机浏览模型
模型描述用户对网页的访问行为;
随机体现在:
浏览起始点选择的随机性、页内超链接选择的随机性;
所用浏览器:
无地址栏,无后退、前进按钮;
不能输入URL访问网页,且只能向前浏览不能回退;
提供“随便逛逛”功能,点击“随便逛逛”按钮,挑选一个随机的起点,开始浏览;
可从网页内所含超链接中随机选择一个页面继续进行浏览;
沿着超链接前进了一定数目的网页后,对页面内容不感兴,可使用“随便逛逛”跳转到另一个网页上进行浏览,如此反复。
在浏览过程中,用户访问到某个页面的概率就称为该页面的PageRank。
用户离开肖肃匸世
页面PageRank计算:
网页被用户访问到的可能性有两种。
1、使用“随便逛逛”跳转到页面A
假设“随便逛逛”以随机方式推荐网页,互联网上网页总数为N,则用户使
用“随便逛逛”访问到网页A的概率为1/N。
2、浏览过程中通过其他网页上超链接访问到页面A
假设链接到A的k个网页为Pi,P2,P3,…,Pk。
则用户通过Pi访问A的概率为:
PageRank(Pi)*P(Pi=>
A)
PageRank(PJ:
用户访问到Pi页面的概率,
P(Pi=>
A):
用户访问Pi页面时,点击链接到A页面的超链接的概率假设用户浏览Pi时点击页面上各超链接概率相等;
P(Pi
Outdegree(R)
用户通过Pi,P2,P3,…,Pk访问到A的概率为:
JPageRank(P)
芋PageRank(P)
P二AOutdegree(R)
假设。
不存在不含超链接的网页,用户主动使用“随便逛逛”功能概率为a,则用户访问到页面A的概率为:
PageRank(A)二a*(1-a)*'
PageRank(Pi)
N冷Outdegree(R)
a*丄:
用户使用“随便逛逛”功能访问到页面A的概率;
N
(1-a)*aPageRank:
Pi):
用户使用超链接访问到页面A的概率;
冷Outdegree(R)
可以看到,对给定的参数a,页面A的PageRank值由链接到它的各个页面的PageRank值决定的。
如果考虑全万维网页面PageRank的计算,就会发现是一个迭代计算过程。
PageRank(简化)算法
⑴取万维网链接结构图G,G的规模为N,即G中包括N个节点
对于G中的每一个节点n,设PR(n)是其PageRank值,而向量PR为G
PR=(丄,丄,丄
NNN
对应的PageRank结果向量。
⑵设定,
丄
即:
对G中每一个节点n,设定其初始值PR(O)(n)均为N
⑶Fork=1,2,3,…,TN
对G中的每一个节点n,
(k)*1“、八PR(kJl)(P)
(n)=a*(1-a)-
PRNP^nOutdegree(P)
其中,a为预先设定的参数,Outdegree(P)为页面Pi的出度值。
(4)当结果向量PR未收敛时,返回(3)继续循环;
当PR收敛时,算法结束,输出所计算出的G中每一个节点n的PR(n)的结果。
如图所示的链接结构图中,各个网页都具有超链接,A页面链向页面B
与C,B与C分别链向D页面,而D页面链回A页面。
我们可以依照上述PageRank
简化算法计算图8.9的PageRank数值如下:
初值:
庶=(*,+,+,*),设a为0.2
第一次迭代;
PR⑴(A)=0・2•±
+(1—0.2八(PR⑹(D)/Outdegree(D))4
=0*05+0,8•~—0,25
4
PR
(1)(B)=0.2•丄+(I—0.2)-(PRt0>
(A)/Outdegree(A))4
11_
=0.05+0.8•j*y=0.15
PR⑴(C)=0,2•丄+(1—0.2八(PR⑼(A)/Outdegree<
A)>
4
=0,05+0.8•#・*二0.15
PR⑴(D)=0.2•丄+(1—0.2八(PR(0>
(B)/Outdegree(B)4
+PRf0)(C)/Outdegree(C))=0.05+0.8•(扌+工
=0.45
第二