基于微博扩展的用户兴趣主题挖掘Word文档下载推荐.docx

资源描述

基于微博扩展的用户兴趣主题挖掘Word文档下载推荐.docx

《基于微博扩展的用户兴趣主题挖掘Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《基于微博扩展的用户兴趣主题挖掘Word文档下载推荐.docx（13页珍藏版）》请在冰豆网上搜索。

基于微博扩展的用户兴趣主题挖掘Word文档下载推荐.docx

LDA模型；

IF-IDF提取关键词算法；

快速Gibbs抽样算法

BasedonTwitteruserinterestrelatingtominingexpansion

Abstract:

BecauseoftheInternetinformationexplosion,dazzlingfilledwithoureyestheseInternetpeopleEye,donotknowhowtofindthecorrectandreasonableinformation,donotknowhowtofindthisinformationhandykeyword.TypicalisnowthehottestnewsocialmediaplatformWeiboeleven,toquicklyandeasilysharetheInternetPlatforminformation.RegisteredusersofthisplatformthroughPCweb,mobilephonesandotherthird-partyterminal.

Applicationinatimelymannertoedittext,pictures,videosharingorpowdertogivethemselvesmutualconcernpeople.WithNoteRegisteredusersgrowingmicrobloggingfilledwithalotofsocialgossip,fansopinion,allkindsofinformation.

Keywordsspecificallymentioned,almostallofthedocumentsorstatementsmusthavespecialabilitytoreflectandhighlightthecontentofthearticleKeywords.Wefindkeywords,youcanquicklyandeffectivelyunderstandthedocumentsorstatementstoreflecttheeffect,

Moreeasilyunderstandtherelevantsubjectmatter,inadditiontogeneratingkeywordisautomaticallyextracted,butalsotohaveaconvergencetextImportantrole.Becauseweareveryconcernedabouthowtoautomaticallyextractkeywords,andjustshowshowthisresearchispractical,howmeettheactualneedsofthemoment,oncetheautomaticextractionofkeywords,bothtosavealotofmanpowerandfinancialresources,butalsothekeyprovincegotoalotoftimeandeffort,andfastandefficient.So,howtoextractkeywordsisveryimportant.Microbloggingkeywordsmining,thegeneralapproachistheprimarymicro-blogcontentasshorttext,usingtextminingtechnologyandinformationcontenttouserstheabilitytofullyassociativeanalysisandmining,andalsobehindtheexcavationfortheuserimplicitlyanimplicitconcernamongusers,orproductrelations.

Sohowtoquicklyextractkeywordsit?

Howtoimprovetheextractionefficiencyandquality?

Basedonourresearchinadditiontomicrobloggingcommonstructuralmodeldataminingmodel--LDAoutside,wemustconsiderseveralalgorithmsbasedonkeywordsextractedLDAmodel,suchasfastGibbssamplingmethod,IF-IDFextractkeywordsCentrealgorithmalgorithm,thecentralnodeofthenetworkwereextractedkeywords,andtothiseffecttheaccuracyofthethreealgorithmscomparison.Thisstudythreealgorithmstoseetheirprinciplesandalgorithmformula,butalsofromtherespectivecomparativeadvantagesanddisadvantagestoo.IntheLDAmodelbasedonhowquicklyextractkey,howfastandefficientreasoningassociation,byobtainingthemodelparameterstocalculatethenumberandaccuracyofobtainingfragmentsofwords.

Keywords:

LDAmodel;

TF-IDFkeywordextractionalgorithm;

fastGibbssamplingalgorithm

第1章绪论

1.1研究的课题背景

21世纪，互联网经历了爆炸式增长，从而全面进入互联网时代，正因为爆炸式的互联网信息，眼花缭乱的充斥着我们这些互联网民的眼睛，不知道如何找到正确合理的信息，也不知道怎么方便的找到这些信息的关键词。

近年微博快速发展，2016年用户规模突破5亿[1]。

可想而知这么多用户每天会发布各色各样的信息，很快网上就布满了各种信息，我们如何在海量的信息中找到我们所需要的关键部分呢?

如何快速找到重要信息?

这也正是微博的主题挖掘所体现的魅力。

从这个方面我们就可以预想，对于微博的主题数据挖掘研究是多么热门的领域。

我们该如何从这么庞大的微博信息海洋中抽取有效的主题信息呢?

目前对于数据挖掘这个领域有几个方面是比较热门也是研究比较多的几个方面:

微博这样平台用户的关系挖掘、基于微博主题词热度挖掘、对微博关键词如何提取，如何对关键词的文挡进行分析等。

1.2研究的课题现状

这几年随着移动互联网的普及，用户扩展的主题信息挖掘正在成为所有移动信息研究者的热门课题，从中重点优几个重点课题，分别是：

（1）基于关键词抽取的研究[2]；

（2）基于用户文本信息的兴趣挖掘研究，比如微博文本和标签；

（3）基于社交关系的兴趣挖掘研究。

本次研究注重于关键词抽取以及概率分布。

特别提到关键词，基本所有文章特别能体现和展现文章内容的主题词，通过阅读主题词，就可以立刻明白所要了解我的文章的主要大意，检索相关的主题词内容，另外关键词是生成自动摘要，进行文本汇聚的重要方法。

从字面上可以去理解关键词抽取，关键词是突出文档的重点的词。

本次研究关键词如何抽取，有下面的三种算法，也是本次研究的中重点：

（1）一种高效快速直接的抽样方法——Gibbs（吉布斯）抽样算法，我们可以这样去理解算法原理：

通过获取LDA模型相关参数来计算，获取单词的片段数目和准确率从而算出模型所具备的各种参数和主题词的概率分布。

（2）一种简单直接的抽样方法——IF-IDF提取关键词算法[3]，能够靠单词的频率来进行关键词提取方法，但这个算法缺点也很明显：

因为简单结构所以不能完整地体现单词的重要程度、概率分布情况。

（3）网络中心节点的中心度算法（BC算法），法能将文档信息映射为社会网络，利用网络中心节点的计算特征的单词。

文档、主题、单词都是影响关键词提取的几个方面，但是本文仅通过LDA模型基础上运用合理的抽取算法进一步提高关键词提取的精度。

1.3研究的课题意义与目的

随着注册用户的不断增长，微博上充满着大量的社会花边新闻、粉丝舆论、各种广告信息。

如今上亿微博用户在微博平台上发布的文档、并且转发、评论，很容易发生信息找不到或者互相不匹配的情况，其中主题词的数据挖掘至关重要。

另外，每分钟同时有几十万条微博发出，微博信息数量的爆炸式增长使得微

博用户应接不暇。

所以我们必须采用更加有效正确精准的方法应对或者搜索出我

们有需求的微博信息，如何从杂乱而海量的微博信息中精准地发现主题关键词，

并针对每个用户来抽取主题词来构建用户主题模型。

这种主题词抽取可以给微博

用户、各类相互关系平台和各类政府商界教育界等机构提供精确匹配的服务，如

为用户推荐相应的广告信息或者兴趣爱好等。

另外，在主题词抽取结果中也能从

挖掘出用户的个人习惯兴趣等，这对于很多作为商业用途的App也有着极其重

大的商业价值意义。

本次研究是在微博基础上进行主题词的提取挖掘，也是内容挖掘中一个重要的分支，当然本质上也是文档背后的数据挖掘。

如果对于整个平台，关键词提取能快速掌握互联网各个用户群体的个人喜好程度、内容重点，就可以帮助商家找到有针对性的广告发布的渠道，从而更好的有效增加广告的定向投放力度，对平台有商业价值首先发现自己感兴趣的微博关键词或者主题词能带来很大方便，主题词的抽取后就能比较精确地根据用户的对关键词的关心搜索提及的排名程度进行相关的优先推送，然后搜索系统也可以根据用户的关键词提及或者联想、排名程度来定制搜索结果，以便于提升用户的搜索体验。

以下是主题词抽取的两个研究重点：

（1）通过清楚和明白LDA模型的研究现状，并对LDA主题模型的三种模式相关深入研究，从而了解、研究LDA模型对主题词抽样的几种方式的区别，

并深入了解三种模式的结果区别和算法，当然作为微博数据挖掘的最常用模型，

要对LDA模型的训练过程进行研究和过程熟悉。

（2）重点有这样三种算法:

吉布斯（Gibbs）抽样算法、IF-IDF提取关键词算

法、针对网络中心节点的中心度算法对关键词的抽取的准确度效果的比较，得出三种算法中有效果的主题词抽取。

（3）主题词抽取测试，包括语料准备、测试、衡量标准确定、测试实验，效果对比与总结。

通过本研究可以发现，在微博基础上更好的提取关键主题词，使用户信息能够很全面完整的挖掘出用户背后联系的挖掘方面。

基于实验得到的微博主题词关键抽取可以用于微博用户背后关系的个性化服务，从而为达到广告的精准投放，提升用户的友好度以及带来更多的收益打下坚实的数据基础。

第2章标准的LDA模型

2.1LDA模型研究的现状

众所周知，随着互联网时代的不断加速发展，微博这样的新型的社交新媒体不仅仅使信息产生和传递发生爆炸式增长，也让这些不断产生的信息本身具备的各种价值挖掘遇到了前所未有的挑战。

故迫切寻找能有效挖掘出微博这样的社交化新媒体本身的用户需求和兴趣的一种模型成为现在数据挖掘的研究热门。

这几年，关于微博主题词的数据挖掘逐渐成为微博数据挖掘的重点，当然目前基于用户兴趣构建模型方法很多，但是有关微博主题词热度的构建模型方法还在不断发展中。

下面研究采用LDA模型，但为了解决传统的LDA模型在进行微博主题词热度挖掘时候得到的结果概率难以用实际解释和抽象等问题，能合理抽取微博主题词。

2.2标准LDA模型的基本原理

标准的LDA模型，中文名称：

隐含狄利克雷分配，这个模型有三层结构，分别是文档、主题、词。

同时能将文档和词通过背后隐含的主题关联来实现和识别巨大的语料库背后隐含的巨大文档集合和主题信息，当然也是一种非监督机器学习技术。

我们可以这样去理解LDA[4]模型：

LDA模型可以用某个方面或者概念都可以表现成一系列的相关单词的条件概率。

可以这样通俗的理解：

主题就像大箱子，有概率低、中、高的单词，这些单词或多或少能与主题背后有很强的隐含关系。

而这个LDA模型就是要解决如何才能生成主题，如何对文章的主题进行分析，从而识别背后的隐含的文档集合和主题信息。

当然对于LDA模型的过程可以这样理解：

文档中的词是通过具体的概率选择了具体的主题，并从具体主题中以具体概率选择具体的特定的词语。

在已有的LDA模型中，词在文档中可视的，而主题在文档中是随机变化的。

假设能生成文档，那么文档中的单词展现的概率为：

假设这样的去定义，在Z个单词、N篇文档和W个主题情况下，M参数代表主题，那么在文档中的第i个单词的概率如下表示：

2.3LDA模型生成的三种模式

针对如何生成M份包含N个单词的文档这个问题，LDA模型有以下三个方法[5]：

2.3.1单字模式

单子模式其实很简单可以这样去理解：

有1个文档生成情况下，文档的单词个数用N表示，生成的第n个单词w可以用w_n表示，单词w的分布用p（w）去表示，从现有语料库统计得到。

这种方法需要先通过训练后的语料库获得具体单词的概率分布函数，并且再通过这个概率分布函数每次去生成具体单词，用这个方法反复M次后就能生成M个文档。

例如在一篇文档，去统计各个单词在文档中出现的概率也是用这样的模式去统计的。

如图2-1所示就是单子模式图形表示：

图2-1单子模式图

wMN

2.3.2混合模式

很明显就是生成的文本过于简单和没有主题是LDA模型的不足之处，接下来的混合模式对这个部分进行了改进。

用这个模式去生成1个文档，其中主题用z表示，主题的概率分布用p（z）表示，概率分布是主题z通过p（z）产生；

其中文档的单词个数用N表示，生成的第n个单词w用w_n表示，在主题z时单词w的分布用p（w|z）表示，主题的个数为K，单词的个数为V整体可以看成一个K*V的矩阵，这个主题对应的单词的概率分布可以用每行表示是所包含的各个单词的概率，一定概率生成每个单词通过这个概率去分布。

如图2-2所示就是混合模式图形：

Nwz图2-2综合模式图

MN2.3.3综合模式

第三种模式——综合模式[6]能够生成的1个文档能包含多个主题，每个主题在文档出现的概率用主题向量θ的每一列表示，θ的狄式分布用p（θ）表示，其中文档的单词个数用N表示，生成的第n个单词w用w_n表示，选择的主题用z_n表示，在主题z时单词w用p（w|z）表示，给定主题向量θ时主题z的概率分布用p（z|θ）表示，即p（z=i|θ）=θ_i就可以确定具体为θ的值了。

这种模式确定每个主题被选择的概率可以首先确定一个主题向量θ，然后当每个单词生成，就选择一个主题z从主题分布向量θ中抽取，生成一个单词按主题z的单词概率分布。

如图2-3所示就是综合模式图：

图2-3综合模式图

θαwzβM可以这样解释上面的图形：

1.αβ-M：

生成过程只采样一次只因为每个文档都一样的语料级别的参数特别用α和β表示。

2.θ-N：

文档的变量用θ表示，因为θ与文档一一对应，这样就可以解释为什么不同的主题z在不同的文档产生的概率是不同的，采样一次θ就能生成一次文档。

3.z-w：

单词的变量用z和w表示，z和β共同生成w，θ生成z，单词与主题一一对应。

总结：

上面三种对LDA生成模型的探讨可以看出，学习、训练LDA模型的两个控制参数α和β，主要是从已有的输入语料获得，确定整个模型是靠两个控制参数α和β，然后生成文档。

其中α和β分别对应以下各个信息：

分布p（θ）需要一个向量参数用α表示，可用于生成一个主题θ向量；

不同主题一一对应的单词概率分布矩阵p（w|z）用

β表示。

2.4LDA模型的训练过程

如何训练LDA模型？

针对文档中的每个词所对应的主题，要采取这样的过程：

首先用抽样公式来进行反复迭代抽样，再估计出每次参数进行反复迭代后的结果，然后用词—主题可以用于预测下一个文档上的主题分布。

其中训练[7]的流程有以下四个步骤：

（1）一开始初始化，当然要随机处理，每个词n在现有语料中，随机一个主题z被赋予；

（2）然后需要重新读取整个现有语料库，每个词n在每篇文档中，它的主题用抽样公式重新采样，不断在现有语料库更新；

（3）再次循环

（2）步骤，直到抽样过程完全收敛；

（4）最后统计语料库中词—主题形成的矩阵，分析得到M个主题词的分布概率。

从训练过程就可以得知，主题和词的数量与LDA模型的空间规模息息相关，其中代表的意思就是LDA模型在如今爆炸式增长的互联网空间规模特别是语料训练大规模集合的性能十分优越。

正因为有这样的优势，LDA模型能在数据挖掘领域受到很大的关注。

因为跟数量有关，所以也存在着缺点，在需要多轮迭代的抽样公式下，计算量会很大。

第3章基于LDA模型的主题词抽取方法

3.1吉布斯（Gibbs）抽样算法

采用抽样公式去抽取主题是充分考虑到LDA模型，采用吉布斯（Gibbs）抽样[8]推导和提取主题是十分高速有效直接的抽样方式，原理是通过获取LDA模型相关参数来计算，获取单词的片段数目和准确率从而算出模型所具备的各种参数和主题词的概率分布。

为了能有效提高主题词抽取的效率，下面研究是利用快速Gibbs抽样进行推理，利用基于LDA模型，从而算出模型所具备的各种参数和主题词的概率分布。

其中首先提取相关的主题词采取香农信息来，再通过查找语料库的单词产生隐含关联和联想。

这样操作明显优于其他模型，更加符合人的直觉判断。

接下来阐述Gibbs抽样公式和过程：

1、首先来表示估计每个文档的词对应个主题的条件概率。

其中用来表示单词i所属的主题是j；

表示排除单词i以外的其他词的主题信息；

目前单词i用表示；

d代表当前文本；

“o”代表已知的其他信息，包括超参数α，β等。

抽样出单词i最新的主题使用条件概率。

进一步分析条件概率，可以得到：

其中，公式中W*t和D*t的矩阵用和表示，j的次数用表示，后者代表单词j的数目用文档d中主题表示。

分成左右两部分，单词w是主题j的概率用左部分可以表示，主题j在文档d中的分布情况是右边表示。

假设被认为与主题j等同，则会加大其他单词是主题j的概率。

同样的在文档d主题j中频繁出现，那么文档中词w是主题j的概率也会加大。

所以在迭代一开始，抽样值是没有任何意义，关键考虑这个对概率的预测准确度不精确。

我们在进行Gibbs抽样算法时，首先需要随机词w的主题确定，并和初始化，接着反复进行上面迭代。

当反复进行迭代k次后，抽样样本X开始接近目标概率分布，抽取样本是每隔一定次数C，其中k称为里间距，C称为外间距。

当Gibbs抽样进行过程中，样本能直接给出主题的每个词，我们测试数据时，可以提取θ和ϕ[9]的估计公式如下：

上面的公式对于主题在单词和主题上的概率分布通过Gibbs抽样方法使得LDA模型获得了。

3.2IF-IDF提取关键词算法

IF-IDF算法[10]是目前关键词标引最早的技术之一，能够在统计的词语关键词基础上提取的一种方法，正在逐渐进化成关键词提取算法。

该算法原理是这样的：

全部文档数量在某个文档集θ中，测试文档D中，既可以利用TF-IDF方法（如下面的公式）计

展开阅读全文