最新浅谈搜索引擎基础案例报告附代码数据.docx

资源描述

最新浅谈搜索引擎基础案例报告附代码数据.docx

《最新浅谈搜索引擎基础案例报告附代码数据.docx》由会员分享，可在线阅读，更多相关《最新浅谈搜索引擎基础案例报告附代码数据.docx（13页珍藏版）》请在冰豆网上搜索。

最新浅谈搜索引擎基础案例报告附代码数据.docx

最新浅谈搜索引擎基础案例报告附代码数据

浅谈搜索引擎基础（下）

首页 > 教程 > C++ » 浅谈搜索引擎基础（下）

2017-11-2516:

52:

57 C++|

链接分析

　　我们在最开始说过，搜索引擎在查找能够满足用户需求的网页时，主要会考虑两方面的因素，一方面是用户发出的查询与网页内容的相关性得分，另一点就是通过链接分析方法计算获得的得分，也即网页的重要性。

PageRank算法

　　PageRank算法是Google创始人于1997年构建早期搜索系统原型时提出的链接分析算法，目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。

　　对于某个网页A来说，该网页的PageRank计算基于以下两个基本假设：

∙数量假设：

在Web图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。

∙质量假设：

指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。

所以越是高质量的页面指向页面A，页面A越重要。

　　PageRank计算得出的结果是网页的重要性评价，这和用户输入的查询是没有任何关系的。

也即如果有一个搜索引擎完全基于PageRank，那用户不论输入什么查询语句，返回的结果都是相同的，都是PageRank值最高的页面。

PageRank计算

　　初始阶段，每个页面设置相同的PageRank值，通过若干轮的计算，每个页面会收敛到最终的PageRank值。

　　在一轮PageRank得分的更新计算中，每个页面将其当前的PageRank值平均分配到本页包含的出链上，这样每个链接即获得了相应的权值。

而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。

当每个页面都获得了更新后的PageRank值，就完成了一轮PageRank计算。

链接陷阱与远程跳转

　　如果仔细思考一下就会发现上面的PageRank算法存在问题。

一个典型的例子就是链接陷阱，比如三个网页，相互链接指向，形成了一个环结构，这种结构在计算PageRank的时候，该结构将导致系统只会吸收传入的分支，而不能将获得的分值传播出去，随着PageRank一轮轮地连续计算，链接陷阱内的页面PageRank值将会越来越高。

　　远程跳转是解决链接陷阱的通用方式，所谓远程跳转，即在网页向外传递分值的时候，不限于向出链所指网页传递，也可以以一定的概率向任意其他网页跳转。

权值通过这种虚拟边向外传递，以此来避免链接陷阱导致的问题。

HITS算法（HypertextInducedTopicSelection）

Hub页面与Authority页面

　　Hub页面与Authority页面是HITS算法最基本的两个定义，所谓Authority页面是指与某个领域或某个话题相关的高质量网页；所谓Hub页面，指的是包含了很多指向高质量Authority页面链接的网页。

相互增强关系

　　HITS算法隐含并利用了两个基本假设：

∙一个好的Authority页面会被很多好的Hub页面指向

∙一个好的Hub页面会指向很多好的Authority页面

　　通过这种相互增强关系不断迭代计算，即可找出哪些页面是高质量的Hub页面和Authority页面。

HITS算法流程

　　HITS算法与PageRank一个显著的区别就是HITS算法与用户输入的查询请求密切相关，而PageRank算法是与查询无关的全局算法。

　　HITS算法接收到了用户查询之后，会将查询提交给某个现有的搜索引擎或是自己构建的检索模型，并在返回的搜索结果中，提取排名靠前的网页，得到一组与用户查询高度相关的初始网页集合，这个集合被称为根集。

　　在根集的基础上，凡是与根集网页有直接链接指向关系（指向根集内页面/根集页面有链接指向）的网页都被扩充进扩展网页集合。

HITS算法在这个扩展网页集合内寻找好的Hub页面与Authority页面。

　　对于扩展网页集合，我们对每个页面都设置两个初始权值，一般将Hub权值和Authrity权值都初始化为1

　　之后可以根据前面的两条基本假设不断进行迭代，直到权值收敛。

　　HITS算法存在主题漂移问题，如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的相互链接指向，那么HITS算法很可能给给予这些无关网页很高的排名，这种现象被称为紧密链接社区现象。

　　HITS算法计算效率较低，且较容易被作弊者操纵结果，而PageRank因为增加了远程跳转，机制上优于HITS算法。

SALSA算法

　　SALSA算法融合了PageRank与HITS算法的基本思想，是目前效果最好的链接分析算法之一。

　　SALSA算法有两个阶段，首先是确定计算对象集合的阶段，这一阶段与HITS算法基本相同；第二阶段是链接关系传播过程，这一阶段采纳了PageRank的随机游走模型。

首先SALSA算法像HITS算法一样算出扩展网页集合。

　　之后，SALSA算法根据网页链接关系，将扩展网页集合转换为一个二分图，一个子集合是Hub集合，另一个是Authroity集合，规则如下：

∙如果一个网页网页包含出链指向扩展网页集合内其他节点，则这个网页可以被归入Hub集合

∙如果一个网页网页包含扩展网页集合内其他节点指向的入链，则这个网页可以被归入Authority集合

　　根据以上规则，如果某个网页同时包含入链和出链，则可以同时归入两个集合。

Hub集合内网页的出链组成了二分图的边。

　　与HITS算法不同，这里SALSA在形成二分图之后，原来的有向边不再保留方向，转换为无向边：

二分图

　　接下来是链接关系传播阶段，SALSA算法舍弃了HITS的相互增强假设，转而采用PageRank随机游走模型的思想。

　　SALSA算法假设存在某个浏览者，从子集合中随机选择一个节点出发，如果节点包含多条边，则以相等概率随机选择一条边，从Hub（Authority）子集合跳到Authority（Hub）集合内节点，如此不断在两个子集之间转移，形成了SALSA自身的链接关系传播模式。

　　这个随机游走模型看起来与PageRank不同，但实际上『以相等概率随机选择一条边』与『每个页面将其当前的PageRank值平均分配到本页包含的出链上』是等价的。

而HITS算法属于权值广播模式，即将节点本身的权值完全传播给有链接指向的节点，并不根据链接多少进行分配。

　　之后我们要将二分图转化为Authority节点关系图。

　　得到Authority节点关系图要去掉原二分图中的Hub节点，只保留Authority节点，并新建Authority节点之间的链接关系，Authority节点之间的链接关系继承自二分图中原有的链接关系。

简单举个例子，Authority节点A到B的链接概率为原二分图中所有A到B的间接路径的概率和，而每条间接路径的概率通过这条路径上所有子路径的概率乘积计算得出，每条子路径的概率根据所属节点出链的个数平均分配。

最后得到的Authority节点关系图如下：

　　可以发现节点1是独立的，是因为在原二分图中并不存在由节点1到节点3/5/6的任何间接路径。

（其实Authority节点关系图在后面起到的作用只是判断哪些节点之间是连通的，转移概率并没有用到）

　　建好Authority节点关系图之后，即可根据随机游走模型来计算每个节点的Authority权值。

在实际计算过程中，SALSA将搜索结果排序问题进一步转换为求Authority节点矩阵的主秩问题，矩阵的主秩即为每个节点的相应Authority权值得分，按照Authority得分由高到低排列，即可得到最终的搜索排序结果。

　　简单说一下，我们根据Authority节点关系图得知节点3、5、6是连通的，1是独立的，然后我们根据如下公式计算每个Authority节点的Authority权值得分：

　　这个式子很好理解，第一部分就是当前节点所在的子连通图的节点个数占总节点个数的百分比，也即当前节点所在子连通图对于整个Authority节点关系图的重要程度；第二部分是当前节点的入链个数占当前节点所在子连通图入链个数的百分比，也即当前节点在当前节点所在子连通图的重要程度。

从式子中也可以看出，所有Authority节点的权值之和为1。

　　举个例子，节点3的权重最后计算结果为0.25，3/4乘2/6。

　　另外，如果整个Authority节点关系图是连通的，那么SALSA算法退化为根据节点入链个数决定排序顺序的算法。

　　SALSA算法不需要像HITS算法一样进行不断的迭代，所以计算效率要快于HITS算法，也同时解决了HITS算法的主题漂移问题（一是因为去掉了Hub页面，二是倾向于取Authority中重要连通图中重要的子Authority节点）。

SALSA算法是目前效果最好的链接分析算法之一。

主题敏感PageRank（TopicSensitivePageRank）

　　PageRank算法与查询无关，只能作为相似度计算的一个因子体现作用，无法独立使用。

而主题敏感PageRank是查询相关的，可单独作为相似度计算公式使用。

　　主题敏感PageRank主要有两个计算步骤，第一个是离线的分类主题PageRank数值计算；第二步是在线利用算好的主题PageRank分值，来评估网页和用户查询的相似度。

　　第一步是参考ODP网站，ODP网站定义了16个大的主题类别，每个主题类别下有人工收集的精选高质量网页地址。

然后以这16类主题类型的网页为基础，计算PageRank分值，即每个网页会被赋予16个主题相关的PageRank分值。

不像普通的PageRank算法，所有的权值都被初始化为1，人工收集的精选高质量网页地址会被赋予较高的权值，然后由它们根据链接关系向其它网页传递权值。

　　第二步是在线相似度计算，首先要根据用户查询分类器对查询进行分类，计算用户属于定义好的各个类别的概率分别是多少，然后再相应的乘以待计算相似度的网站每个类别的PageRank值，最终得到相似度。

　　主题敏感PageRank的机制非常适合作为个性化搜索的技术方案，比如在计算用户查询的类别时，不仅考虑用户当前输入的查询词，也考虑用户过去的搜索记录等个性化信息，就能更精准的提供搜索服务。

网页反作弊

　　出于商业利益驱使，很多人会通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置，这样会严重影响搜索引擎用户的搜索体验。

　　常见的作弊方法包括：

内容作弊、链接作弊、隐藏作弊等，这里均简单介绍一下。

　　内容作弊比如在网页中重复关键词、放置无关查询词、在图片alt标签以及网页标题等重要标签放置关键词等，或者用一些低质量的内容搞内容农场。

　　链接作弊有链接农场，就是大量互相紧密链接的网页集合，还有利用链接描述性文字的谷歌轰炸等等。

　　页面隐藏作弊有IP地址作弊、HTTP请求作弊来欺骗爬虫。

　　反作弊的方法比如信任传播模型，筛选出一些肯定不会作弊的白名单页面，给予一定信任分值，然后白名单内节点通过链接关系将信任度分值向外扩散传播，然后确定一个信任度阈值；或者反过来用黑名单做不信任传播模型；还有异常发现模型，倾向于去发现作弊网页不同于正常网页的特征。

用户查询意图分析

　　用户之所以会产生搜索行为，往往是在解决任务时遇到自己不熟悉的概念或问题，由此产生了对特定信息的需求，之后用户会在头脑中逐步形成描述需求的查询词，将查询词交给搜索引擎，然后对搜索结果进行浏览，找到满足自身需求的信息或者根据搜索结果的启发，修正自己的查询关键词重新搜索。

　　上面的问题在于，从用户产生信息需求到最终形成用户查询，中间有很大的不确定性，用户用的查询语句与用户的信息需求很难一开始就是完全等价的。

因此用户会改写自己的需求，比如抽象化改写、具体化改写及同义重构改写。

用户搜索意图分类

　　有人将用户的意图分为三个大类：

导航型、信息型、事务型。

　　这让我想到了有篇文章，阿里小蜜将用户的意图分为三种：

问答型、任务型、语聊型。

∙问答与信息型相同，都是希望获取某种信息，知道某种知识。

∙任务型与事务型相同，都是希望完成一个目标明确的任务。

∙导航型搜索引擎独有，用户希望查找某个网页，但又不知道URL，所以借助搜索引擎。

∙语聊型chatbot独有，毕竟没人会和一个搜索引擎闲聊吧。

　　意图识别可以采取一些通用的分类器，比如SVM、决策树等完成。

搜索日志挖掘

　　搜索引擎是搜索引擎对用户行为的记录，一般记载了查询、发出查询的用户ID，发出查询的时间、点击网页的网址及这条网址在搜索记录中的排名情况。

查询会话

　　比如在搜索日志中，我们可以找出用户在较短时间段内发出的连续多个查询，这样的一段日志被称作一个查询会话，一个查询会话中的用户查询语句往往会有语义上的相关性。

比如我们可以依此来构建查询图，用来表示查询之间的这种相互关系。

点击图

　　点击图是非常有价值的信息，我们可以认为搜索结果里被点击过的网页与用户查询更相关。