人工智能信息检索与推荐技术发展报告.docx

资源描述

人工智能信息检索与推荐技术发展报告.docx

《人工智能信息检索与推荐技术发展报告.docx》由会员分享，可在线阅读，更多相关《人工智能信息检索与推荐技术发展报告.docx（22页珍藏版）》请在冰豆网上搜索。

人工智能信息检索与推荐技术发展报告.docx

人工智能信息检索与推荐技术发展报告

[文档副标题]

[日期]

[公司名称]

[公司地址]

14信息检索与推荐

14.1信息检索与推荐概念

●信息检索

R.Baeza-Yates教授在其著作《现代信息检索中》中指出，信息检索

（InformationRetrieval，IR）是计算机科学的一大领域，主要研究如何为用户访问他们感兴趣的信息提供各种便利的手段，即：

信息检索涉及对文档、网页、联机目录、结构化和半结构化记录及多媒体对象等信息的表示、存储、组织和访问，信息的表示和组织必须便于用户访问他们感兴趣的信息[77]。

在范围上，信息检索的发展已经远超出了其早期目标，即对文档进行索引并从中寻找有用的文档。

如今，信息检索的研究包括用户建模、Web搜索、文本分析、系统构架、用户界面、数据可视化、过滤和语言处理等技术。

信息检索的主要环节包括信息内容分析与编码、组成有序的信息集合以及用户提问处理和检索输出。

其中信息提问与信息集合的匹配、选择是整个环节中的重要部分。

当用户向系统输入查询时，信息检索过程开始，接着用户查询与数据库信息进行匹配。

返回的结果可能是匹配或不匹配查询，而且结果通常被排名。

大多数信息检索系统对数据库中的每个对象与查询匹配的程度计算数值分数，并根据此值进行排名，然后向用户显示排名靠前的对象，信息检索框架如下图所示。

图14-1信息检索系统流程

●推荐系统

推荐系统（RecommendationSystem，RS）是指信息过滤技术，从海量项目

（项目是推荐系统所推荐内容的统称，包括商品、新闻、微博、音乐等产品及服

务）中找到用户感兴趣的部分并将其推荐给用户，这在用户没有明确需求或者项目数量过于巨大、凌乱时，能很好地为用户服务，解决信息过载问题[78]。

如下图所示，一般推荐系统模型流程通常由3个重要的模块组成：

用户特征收集模块，用户行为建模与分析模块，推荐与排序模块。

推荐系统通过用户特征收集模块收集用户的历史行为，并使用用户行为建模和分析模块构建合适的数学模型分析用户偏好，计算项目相似度等，最后通过推荐与排序模块计算用户感兴趣的项目，并将项目排序后推荐给用户[79]。

图14-2推荐系统模型流程

●联系与区别

信息的检索与推荐都是用户获取信息的手段，无论是在互联网上，还是在线下的生活场景里，这两种方式都大量并存，两者之间的关系是互补的：

搜索引擎需要用户主动提供准确的关键词来寻找信息，因此不能解决用户的很多其他需求，比如当用户无法找到准确描述自己需求的关键词时，搜索引擎就无能为力了。

和搜索引擎一样，推荐系统也是一种帮助用户快速发现有用信息的工具。

与搜索引擎不同的是，推荐系统不需要用户提供明确的需求，而是通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣和需求的信息。

因此，从某种意义上说，推荐系统和搜索引擎对于用户来说是两个互补的工具。

搜索引擎满足了用户有明确目的时的主动查找需求，而推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。

在实际生活中也有很多运用。

同时，信息的检索与推荐也有着一定的区别，可以分为以下几个方面：

首先是主动与被动的不同。

搜索是一个非常主动的行动，用户的需求也十分明确，在搜索引擎提供的结果里，用户也能通过浏览和点击来明确的判断是否满足了用户需求。

然而，推荐系统接受信息是被动的，需求也都是模糊而不明确的。

其次是个性化程度的高低。

搜索引擎虽然也可以有一定程度的个性化，但是整体上个性化运作的空间是比较小的，因为当需求非常明确时，找到结果的好坏通常没有太多个性化的差异。

但是推荐系统在个性化方面的运作空间要大很多，虽然推荐的种类有很多，但是个性化对于推荐系统是非常重要，以至于在很多时候大家索性就把推荐系统称为“个性化推荐”甚至“智能推荐”。

再次就是需求时间不同。

在设计搜索排序算法里，需要想尽办法让最好的结果排在最前面，往往搜索引擎的前三条结果聚集了绝大多数的用户点击。

简单来说，“好”的搜索算法是需要让用户获取信息的效率更高、停留时间更短。

但是推荐恰恰相反，推荐算法和被推荐的内容往往是紧密结合在一起的，用户获取推荐结果的过程可以是持续的、长期的，衡量推荐系统是否足够好，往往要依据是否能让用户停留更多的时间，对用户兴趣的挖掘越深入，越“懂”用户，那么推荐的成功率越高，用户也越愿意留在产品里。

最后是评价方法不同。

搜索引擎通常基于Cranfield评价体系，整体上是将优质结果尽可能排到搜索结果的最前面，让用户以最少的点击次数、最快的速度找到内容是评价的核心。

而推荐系统的评价要宽泛很多，既可以用诸如MAP

（MeanAveragePrecision）的常见量化方法评价，也可以从业务角度进行侧面评价[80]。

14.2信息检索和推荐技术发展历史

●信息检索

信息检索的目的是获取所需信息，而这要基于比较完善的检索技术，用户需求的变化和信息技术的进步对信息检索的发展有着重要的影响。

根据技术的演化，我们将信息检索发展历程分为三个阶段：

（1）数字图书馆／文档电子化时代

1954年，VannevarBush（范内瓦·布什）在“AtlanticMonthly”7月号发表了一篇名为“AsWeMayThink”的文章，这篇文章影响了几代的计算机科学家。

文章提到：

“未来人们能够实现对海量图书资源（1M）进行快速的访问”。

概括出了信息检索在数字图书馆时代的特征，即对文档全文内容的快速检索。

范内瓦·布什在担任美国科学研究与发展办公室主任期间推进了美国军队研究机构与高校研究机构的合作，正是当时在这种合作关系中发挥最重要影响的三所大学（哈佛大学、麻省理工学院、加州大学伯克利分校）与后来成立的美国国防部高等研究计划署（ARPA）合作开发出了互联网的雏形：

ARPANET。

图14-3范内瓦·布什（1890-1974）

1957年，Luhn在论文“AStatisticalApproachtoMechanizedEncodingandSearchingofLiteraryInformation”里提到“…awriterchoosesthatlevelofsubjectspecificityandthatcombinationofwordswhichhefeelswillconveythemost

meaning.”，这是一种以单词作为索引单元的文档检索方法。

20世纪60年代，GerardSalton创造了信息检索系统SMART（Salton’sMagicAutomaticRetrievalofText），推进了信息检索相关研究的水平提升。

SMART系统并非搜索引擎，但它具备搜索引擎具有的文本索引、查询处理、结果排序等功能。

20世纪60年代后期另外两个研究领域需要提及。

第一个是JulieBethLovins于1968年在麻省理工学院开发的词干算法（StemmingAlgorithm）；另一个研究涉及评估指标，例如WilliamCooper在1968年提出的“Cooper”，这个度量标准目前已在多个应用程序中大量使用。

在数字图书馆时代，信息检索技术主要应用于封闭数据集合、单机模式或专网内的主机-终点模式，在商业应用方面，则是提供软件/解决方案，专网内的查询服务。

（2）早期互联网时代

随着信息技术的爆炸式发展，信息检索的发展发生了质的飞跃。

TimBerners-

Lee（蒂姆·伯纳斯·李）基于尚未被商用的互联网提出了万维网（Web）的原型建议。

1991年8月，蒂姆·伯纳斯·李在一台NeXT电脑上建立了第一个网站http：

//nxoc01.cern.ch/。

他一直坚持将公开和开放作为万维网的灵魂。

图14-4蒂姆·伯纳斯·李和他的NeXT电脑

从事检索业务的公司随着互联网的发展而快速崛起，如雅虎、XX等。

在众多公司中，谷歌被公认为全球最大的搜索引擎公司，其业务包括互联网搜索、云计算、广告技术，开发并提供大量基于互联网的产品与服务。

随着互联网的发展，面对众多杂乱无章的信息，如何对数以亿计的相关网页进行排序成为搜索引擎算法的核心问题，为此谷歌开发出了著名的PageRank算法。

PageRank的主要原理是用链接数量作为搜索排序的一个因子。

在互联网上，如果一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高，这就是PageRank的核心思想。

PageRank算法将互联网中大多数的网页通过基于链接来计算网页质量的方式进行排名，为搜索引擎用户提供较好的基于链接查询的搜索结果，同时该算法能够进行离线分析处理，大大缩短了搜索引擎用户的服务响应时间，实属计算机科学史上一项伟大成就，它以及其简明的逻辑，发明了迄今为止在搜索引擎领域还相当有代表性的算法，解决了数以亿计的

网页质量评估问题，抛开它难以估量的商业价值不谈，就说其学术方面，这种依靠数据自身结构的学习方法，也依然还在当前很多信息检索领域启发着我们。

业界主要表现为第一代搜索引擎和第二代搜索引擎的出现，国外有AltaVista、

Excite、WebCrawler和Yahoo！

，国内有应用于国防和安全领域的“天罗”和面向公众提供服务的天网。

第二代搜索引擎的代表是1998年成立的Google和2000

年1月创建的中文搜索引擎——XX。

在XX之后，多家中文搜索引擎相继出现，例如中搜、搜狗、搜搜和有道。

这个时期信息检索的应用形态的特征是开放的、大规模的、实时的、多媒体的，尤其巨型搜索引擎采集到的公开数据和用户访问日志等非公开数据深刻地影响着这一时期信息检索领域的创新模式。

（3）Web2.0时代

在Web2.0时代，用户对Web有更深入的参与需求，这就对信息检索提出了更高的要求。

信息搜索的发展开始更加关注用户需求，以实现内容与行为的精准Web搜索。

这个时期的信息检索实现了内容数据与社会各侧面的电子化数据（万维网、社交网、物联网、地理信息等）的全面融合；尤其是对社交网络数据的采集和大数据处理技术出现了社会化趋势。

●信息推荐

上个世纪最后二十年以来，互联网的发展和普及为人们提供了一个全新的信息存储、加工、传递和使用的载体，网络信息也迅速成为了社会成员获取知识和信息的主要渠道之一。

一般认为推荐系统的研究始于1994年明尼苏达大学，GroupLens研究组推出了GroupLens系统，该工作不仅首次提出了协同过滤的思想，并且为推荐问题建立了一个形式化的模型，为随后几十年推荐系统的发展带来了巨大影响。

之后，推荐系统的相关技术得到了进一步发展和重视。

1995年3月，卡耐基·梅隆大学的RobertArmstrong等人在美国人工智能协会提出了个性化导航系统WebWatcher；斯坦福大学的MarkoBalabanovic等人在同一会议上推出了个

性化推荐系统LIRA；1997年，AT&T实验室提出了基于协同过滤的个性化推荐系统PHOAKS和ReferralWeb；2000年，NEC研究院的Kurt等人为搜索引擎CiteSeer增加了个性化推荐功能；2003年，Google开创了AdWords盈利模式，通过用户搜索的关键词来提供相关的广告。

2007年开始，Google为AdWords添加了个性化元素，不仅仅关注单词搜索的关键词，而且对用户一段时间内的推荐历史进行记录和分析，据此了解用户的喜好和需求，更为精确地呈现相关的广告内容。

信息推荐系统的演变始终伴随着网络的发展，第一代信息推荐系统使用传统网站从以下三个来源收集信息：

来自购买或使用过的产品的基础内容数据；用户记录中收集的人口统计数据；以及从用户的项目偏好中收集的基于记忆的数据。

第二代推荐系统通过收集社交信息，例如朋友、关注者、粉丝等。

第三代推荐系统使用网上集成设备提供的信息。

14.3人才概况

●全球人才分布

学者地图用于描述特定领域学者的分布情况，对于进行学者调查、分析各地区竞争力现况尤为重要，下图为信息检索与推荐领域全球学者分布情况：

图14-5信息检索与推荐技术全球人才分布

地图根据学者当前就职机构地理位置进行绘制，其中颜色越深表示学者越集中。

从该地图可以看出，美国的人才数量优势明显且主要分布于其东西海岸；欧

洲、亚洲也有较多的人才分布；其他诸如非洲、南美洲等地区的学者非常稀少；信息检索与推荐领域的人才分布与各地区的科技、经济实力情况大体一致。

此外，在性别比例方面，信息检索与推荐领域中男性学者占比90.6%，女性学者占比9.4%，男性学者占比远高于女性学者。

信息检索与推荐领域学者的h-index分布如下图所示，大部分学者的h-index分布在中低区域，其中h-index小于20区间的人数最多，有870人，占比42.8%，50-60区间的人数最少，有82人。

1000

900

800

700

600

500

400

300

200

100

>6050-6040-5030-4020-30<20

h-index

图14-6信息检索与推荐技术学者h-index分布

●中国人才分布

我国专家学者在信息检索与推荐领域的分布如下图所示。

通过下图我们可以发现，京津地区在本领域的人才数量最多，其次是长三角和珠三角地区，相比之下，内陆地区的人才较为匮乏，这种分布与区位因素和经济水平情况不无关系。

同时，通过观察中国周边国家的学者数量情况，特别是与日韩、东南亚等地相比，中国在信息检索与推荐领域学者数量较多且优势较大。

图14-7信息检索与推荐中国学者分布

中国与其他国家在信息检索与推荐领域的合作情况可以根据AMiner数据平台分析得到，通过统计论文中作者的单位信息，将作者映射到各个国家中，进而统计中国与各国之间合作论文的数量，并按照合作论文发表数量从高到低进行了排序，如下表所示。

表14-1信息检索与推荐领域中国与各国合作论文情况

合作国家

论文数

引用数

平均引用数

学者数

中国-美国

204

6858

443

中国-新加坡

1067

中国-英国

1057

中国-澳大利亚

746

中国-荷兰

502

中国-加拿大

514

中国-日本

中国-印度

中国-希腊

中国-德国

从上表数据可以看出，中美合作的论文数、引用数、平均引用数以及学者数遥遥领先，表明中美间在信息检索与推荐领域合作之密切；此外，中国与欧洲的合作非常广泛，前10名合作关系里中欧合作共占4席。

14.4论文解读

本节对本领域的高水平学术会议及期刊论文进行挖掘，解读这些会议和期刊在2018-2019年的部分代表性工作。

这些会议和期刊包括：

InternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval

ACMTransactionsonInformationSystemsACMRecommenderSystems

我们对本领域论文的关键词进行分析，统计出词频Top20的关键词，生成本领域研究热点的词云图，如下图所示。

其中，推荐（recommendation）、检索

（retrieval）、排序学习（learningtorank）是本领域中最热的关键词。

论文题目：

AdversarialPersonalizedRankingforRecommendation

中文题目：

对抗式个性化推荐排名

论文作者：

XiangnanHe,ZhankuiHe,XiaoyuDuanTat-SengChua.

论文出处：

The41stInternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval-SIGIR'18

论文地址：

https:

//arxiv.org/pdf/1808.03908.pdf研究问题：

贝叶斯个性化排名（BayesianPersonalizedRanking,BPR）是一种成对学习的排序方法，用于优化个性化排序的推荐模型。

它以内隐反馈学习为目标，假定观察到的交互比未观察到的交互排在更高的位置。

矩阵因子分解（MatrixFactorization,MF）是最基本也是最有效的推荐模型。

MF将每个用户和项表示为嵌入向量，通过嵌入向量之间的内积来估计用户对某一项的偏好程度。

在信息检索领域，贝叶斯个性化排名训练的矩阵分解模型（MF-BPR）学习一个与训练数据相适应的复杂函数，不能很好地泛化，且其鲁棒性较差，易受参数的对抗性扰动。

因此本文提出了一种新的个性化排名训练方法-对抗的个性化排名

（AdversarialPersonalizedRanking,APR）。

研究方法：

以BPR为基础，APR中引入一个额外的目标函数，对其进行优化来量化推荐模型在参数扰动下的损失，使推荐模型既适合于个性化排序，又具有对抗性扰动的鲁棒性。

上式和下式分别是BPR和APR的目标函数，∆adv是对抗性扰动，旨在最大化

BPR目标函数的扰动。

APR可以看作是在玩一个极小极大的游戏，在这个游戏中，优化扰动使BPR损失最大化，并且在对抗扰动的情况下训练模型使BPR损失和附加损失最小化。

APR指定了一个与模型无关的通用学习框架，只要底层模型是可微的，就可以在APR框架下使用反向传播或者基于梯度的优化算法训练模型。

具体地，由于APR的目标函数中含有非线性函数，且训练实例数目庞大，故使用随机梯度下降法（StochasticGradientDescent,SGD）对APR进行优化。

SGD的思想是随机选择一个训练实例，并只针对单个实例更新模型参数，因此

如何根据一个随机采样实例（u,i,j）优化模型参数是关键。

本文提出的求解框架包括对抗性扰动构建和模型参数学习两步，具体步骤详见算法1。

为了说明APR是如何工作的，本文提出了一个基于MF的推荐解决方案。

首先用BPR训练MF，然后在APR框架下进一步优化它，因此把这种方法称为对抗性矩阵分解（AMF）。

AMF如上图所示。

由于MF的参数是用户和项的嵌入向量，故对嵌入向量加以对抗性扰动，再将算法1应用到AMF中，这需要对

AMF进行小批量训练，直到AMF达到收敛状态或性能开始下降。

研究结果：

本文在Yelp、Pinterest和Gowalla三个公共数据集上进行了大量的实验，这三个数据集分别代表不同的应用场景。

定量分析和定性分析都证明了对个性化排名进行对抗性训练的有效性和合理性。

AMF优于MF-BPR，归一化折现累积增益（NDCG）和命中率（HR）平均提高了11%，它也优于最近提出的推荐模型，成为最前沿的推荐模型。

论文题目：

NeuralCompatibilityModelingwithAttentiveKnowledgeDistillation中文题目：

基于注意力知识蒸馏的神经兼容性建模

论文作者：

XuemengSong,FuliFeng,XianjingHan,XinYang,WeiLiuandLiqiangNie.

论文出处：

The41stInternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval-SIGIR'18

论文地址：

https:

//arxiv.org/pdf/1805.00313.pdf

研究问题：

服装搭配与人们的日常生活息息相关，现有研究大多依赖深度神经网络来提取时尚单品的有效表征来解决服装搭配问题。

但作为纯数据驱动方法的神经网络不仅具有较差的可解释性，而且也忽视了搭配领域知识。

即使从数据驱动和知识驱动的角度对服装单品之间的兼容性进行全面建模也面临许多挑战，如搭配领域知识是无结构且模糊的，如何将搭配规则无缝地编码到纯数据驱动的学习框架中以及对于不同的样本知识规则可能表现出不同的置信度，从而提供不同的搭配指导。

为此，本文提出了一种基于注意力知识蒸馏的神经兼容性建模方法（AKD-

DBPR）。

研究方法：

AKD-DBPR能够从特定数据样本和一般领域知识中学习，采用教师-学生模式来整合领域知识（教师）并提高神经网络（学生）的性能。

其基本思想类似于人类教育，教师知道几个专业规则，因此教师可以用自己对特定问题的解决方案指导学生。

学生网络p作为一种纯数据驱动的神经网络，其目标是学习一个隐含的兼容空间，用双路径神经网络将来自异构空间的时尚单品统一起来。

为了对不同模式之间的兼容性和语义关系全面建模，学生网络通过在视觉和语境表示的连接向量上添加隐含层，无缝地集成时尚单品的视觉和语境模式。

此外，为了更好地描述时尚单品之间的相对兼容性，构建基于贝叶斯个性化排名（BPR）框架的学生网络来研究互补单品之间的配对偏好。

同时，用一组灵活的结构化逻辑规则对领域知识进行编码，并利用正则化器将这些知识规则编码到教师网络q中。

但不同的

规则对于不同的样本可能有不同的置信水平，因此引入注意力机制来分配规则置信度，进一步用于指导学生网络的训练。

下图是注意力知识蒸馏的流程。

v和c分别表示单品的视觉和上下文语境，𝑚𝑖,𝑗表示上装i和下装j的兼容性，r表示规则。

最后，鼓励学生网络达到良好的兼容性建模性能，而且能很好地模拟规则正则化的教师网络。

研究结果：

在真实数据集上进行的大量实验证明了AKD-DBPR在服装搭配领域具有良好性能且能应用到互补时尚单品检索的实践中，除此之外也证明了引入注意机制有助于克服人为定义的模糊规则的局限性。

论文题目：

ImprovingSequentialRecommendationwithKnowledge-EnhancedMemoryNetworks

中文题目：

基于知识增强记忆网络的序列推荐

论文作者：

JinHuang,WayneXinZhao,Hong-JianDou,Ji-RongWenandEdwardY.Chang.

论文出处：

The41stInternationalACMSIGIRConferenceonResearch&DevelopmentinInformationRetrieval-SIGIR'18

论文地址：

https:

//sci-hub.tw/10.1145/3209978.3210017研究问题：

推荐系统可以为用户推荐其感兴趣的内容并给出个性化的建议。

基于RNN

的网络可以将历史交互记录编码为隐藏状态向量，但是它很难从交互序列中捕获

细粒度的用户偏好，且隐向量表示的可解释性也较差。

为了以一种可解释的方式

展开阅读全文