基于微博扩展的用户兴趣主题挖掘.docx-资源下载

基于微博扩展的用户兴趣主题挖掘.docx

1、基于微博扩展的用户兴趣主题挖掘基于微博扩展的用户兴趣主题挖掘摘要：正因为爆炸式的互联网信息，眼花缭乱的充斥着我们这些互联网民的眼睛，不知道如何找到正确合理的信息，也不知道怎么方便的找到这些信息的关键词。典型就是现在最火的新媒体社交平台一一微博，能够快捷方便地分享互联网信息的平台。这个平台的注册用户可以通过PC网页、移动手机端和其他第三方应用，及时地将编辑的文字、图片、视频分享给与自己互粉或者关注人。随着注册用户的不断增长，微博上充满着大量的社会花边新闻、粉丝舆论、各种信息。特别提到关键词，几乎所有文档或者语句肯定有特别能体现和突出文章内容的主题词。我们找到主题词，就能快速有效地了解文档或者语句

2、所要体现的大意，更方便理解相关的主题内容，另外关键词是生成自动抽取，也是对文本汇聚有着重要作用。正因为我们十分关注关键词如何自动提取，也恰恰说明了这个研究课题是多么切合实际，多么符合当下的实际需求，一旦完成关键词自动提取，既能省去很多人力物力财力，关键还能省去很多时间和精力，并且高效快捷。所以，如何抽取关键词是十分重要。对微博主题词的挖掘，普遍的方式是主要将微博内容看成短文本，使用文本挖掘技术对用户本事内容和信息充分的联想并且进行挖掘分析，这样背后还能挖掘用户隐含地对于某个关注用户或者产品之间暗含的关系等。那么如何快速抽取关键词呢？如何提高其抽取的效率和质量呢？除了基于我们研究微博的数据挖掘常

3、用的构造模型LDA模型之外，我们必须要在LDA模型的基础上考虑主题词抽取的几种算法，比如快速Gibbs抽样方法、IF-IDF提取关键词算法、网络中心节点的中心度算法进行主题词抽取，并且对这三种算法的精确度效果比较。本次研究能看到三种算法各自的原理和算法公式，也能从中比较出各自得优缺点。在LDA模型基础上如何快速抽取关键，如何高效快速推理联想，通过获取模型相关参数来计算，获取单词的片段数目和准确率。关键词:LDA模型； IF-IDF提取关键词算法；快速Gibbs抽样算法Based on Twitter user interest relating to mining expansionAbstr

4、act: Because of the Internet information explosion, dazzling filled with our eyes these Internet people Eye, do not know how to find the correct and reasonable information, do not know how to find this information handy keyword. Typical is now the hottest new social media platform Weibo eleven, to q

5、uickly and easily share the Internet Platform information.Registered users of this platform through PC web, mobile phones and other third-party terminal.Application in a timely manner to edit text, pictures, video sharing or powder to give themselves mutual concern people. With NoteRegistered users

6、growing microblogging filled with a lot of social gossip, fans opinion, all kinds of information.Keywords specifically mentioned, almost all of the documents or statements must have special ability to reflect and highlight the content of the article Keywords. We findkeywords, you can quickly and eff

7、ectively understand the documents or statements to reflect the effect,More easily understand the relevant subject matter, in addition to generating keyword is automatically extracted, but also to have a convergence text Important role. Because we are very concerned about how to automatically extract

8、 keywords, and just shows how this research is practical, how meet the actual needs of the moment, once the automatic extraction of keywords, both to save a lot of manpower and financial resources, but also the key province go to a lot of time and effort, and fast and efficient. So, how to extract k

9、eywords is very important. Microblogging keywords mining, the general approach is the primary micro-blog content as short text, using text mining technology and information content to users the ability to fully associative analysis and mining, and also behind the excavation for the user implicitly a

10、n implicit concern among users, or product relations.So how to quickly extract keywords it? How to improve the extraction efficiency and quality? Based on our research in addition to microblogging common structural model data mining model -LDA outside, we must consider several algorithms based on ke

11、ywords extracted LDA model, such as fast Gibbs sampling method, IF-IDF extract keywords Centre algorithm algorithm, the central node of the network were extracted keywords, and to this effect the accuracy of the three algorithms comparison. This study three algorithms to see their principles and alg

12、orithm formula, but also from the respective comparative advantages and disadvantages too. In the LDA model based on how quickly extract key, how fast and efficient reasoning association, by obtaining the model parameters to calculate the number and accuracy of obtaining fragments of words.Key words

13、: LDA model;TF-IDF keyword extraction algorithm; fast Gibbs sampling algorithm第1章绪论1.1 研究的课题背景21世纪，互联网经历了爆炸式增长，从而全面进入互联网时代，正因为爆炸式的互联网信息，眼花缭乱的充斥着我们这些互联网民的眼睛，不知道如何找到正确合理的信息，也不知道怎么方便的找到这些信息的关键词。典型就是现在最火的新媒体社交平台一一微博，能够快捷方便地分享互联网信息的平台。这个平台的注册用户可以通过PC网页、移动手机端和其他第三方应用，及时地将编辑的文字、图片、视频分享给与自己互粉或者关注人。随着注册用户的不断

14、增长，微博上充满着大量的社会花边新闻、粉丝舆论、各种信息。典型就是现在最火的新媒体社交平台一一微博，能够快捷方便地分享互联网信息的平台。这个平台的注册用户可以通过PC网页、移动手机端和其他第三方应用，及时地将编辑的文字、图片、视频分享给与自己互粉或者关注人。随着注册用户的不断增长，微博上充满着大量的社会花边新闻、粉丝舆论、各种信息。近年微博快速发展，2016年用户规模突破5亿1。可想而知这么多用户每天会发布各色各样的信息，很快网上就布满了各种信息，我们如何在海量的信息中找到我们所需要的关键部分呢?如何快速找到重要信息?这也正是微博的主题挖掘所体现的魅力。从这个方面我们就可以预想，对于微博的主题

15、数据挖掘研究是多么热门的领域。我们该如何从这么庞大的微博信息海洋中抽取有效的主题信息呢?目前对于数据挖掘这个领域有几个方面是比较热门也是研究比较多的几个方面:微博这样平台用户的关系挖掘、基于微博主题词热度挖掘、对微博关键词如何提取，如何对关键词的文挡进行分析等。特别提到关键词，几乎所有文档或者语句肯定有特别能体现和突出文章内容的主题词。我们找到主题词，就能快速有效地了解文档或者语句所要体现的大意，更方便理解相关的主题内容，另外关键词是生成自动抽取，也是对文本汇聚有着重要作用。正因为我们十分关注关键词如何自动提取，也恰恰说明了这个研究课题是多么切合实际，多么符合当下的实际需求，一旦完成关键词自动

16、提取，既能省去很多人力物力财力，关键还能省去很多时间和精力，并且高效快捷。所以，如何抽取关键词是十分重要。对微博主题词的挖掘，普遍的方式是主要将微博内容看成短文本，使用文本挖掘技术对用户本事内容和信息充分的联想并且进行挖掘分析，这样背后还能挖掘用户隐含地对于某个关注用户或者产品之间暗含的关系等。1.2 研究的课题现状这几年随着移动互联网的普及，用户扩展的主题信息挖掘正在成为所有移动信息研究者的热门课题，从中重点优几个重点课题，分别是：（1）基于关键词抽取的研究2；（2）基于用户文本信息的兴趣挖掘研究，比如微博文本和标签；（3）基于社交关系的兴趣挖掘研究。本次研究注重于关键词抽取以及概率分布。特

17、别提到关键词，基本所有文章特别能体现和展现文章内容的主题词，通过阅读主题词，就可以立刻明白所要了解我的文章的主要大意，检索相关的主题词内容，另外关键词是生成自动摘要，进行文本汇聚的重要方法。正因为我们十分关注关键词如何自动提取，也恰恰说明了这个研究课题是多么切合实际，多么符合当下的实际需求，一旦完成关键词自动提取，既能省去很多人力物力财力，关键还能省去很多时间和精力，并且高效快捷。所以，如何抽取关键词是十分重要。从字面上可以去理解关键词抽取，关键词是突出文档的重点的词。本次研究关键词如何抽取，有下面的三种算法，也是本次研究的中重点：（1）一种高效快速直接的抽样方法Gibbs（吉布斯）抽样算法，

18、我们可以这样去理解算法原理：通过获取LDA模型相关参数来计算，获取单词的片段数目和准确率从而算出模型所具备的各种参数和主题词的概率分布。（2）一种简单直接的抽样方法IF-IDF提取关键词算法3，能够靠单词的频率来进行关键词提取方法，但这个算法缺点也很明显：因为简单结构所以不能完整地体现单词的重要程度、概率分布情况。（3）网络中心节点的中心度算法（BC算法），法能将文档信息映射为社会网络，利用网络中心节点的计算特征的单词。文档、主题、单词都是影响关键词提取的几个方面，但是本文仅通过LDA模型基础上运用合理的抽取算法进一步提高关键词提取的精度。1.3 研究的课题意义与目的随着注册用户的不断增长，微

19、博上充满着大量的社会花边新闻、粉丝舆论、各种广告信息。如今上亿微博用户在微博平台上发布的文档、并且转发、评论，很容易发生信息找不到或者互相不匹配的情况，其中主题词的数据挖掘至关重要。另外，每分钟同时有几十万条微博发出，微博信息数量的爆炸式增长使得微博用户应接不暇。所以我们必须采用更加有效正确精准的方法应对或者搜索出我们有需求的微博信息，如何从杂乱而海量的微博信息中精准地发现主题关键词，并针对每个用户来抽取主题词来构建用户主题模型。这种主题词抽取可以给微博用户、各类相互关系平台和各类政府商界教育界等机构提供精确匹配的服务，如为用户推荐相应的广告信息或者兴趣爱好等。另外，在主题词抽取结果中也能从挖

20、掘出用户的个人习惯兴趣等，这对于很多作为商业用途的App也有着极其重大的商业价值意义。本次研究是在微博基础上进行主题词的提取挖掘，也是内容挖掘中一个重要的分支，当然本质上也是文档背后的数据挖掘。如果对于整个平台，关键词提取能快速掌握互联网各个用户群体的个人喜好程度、内容重点，就可以帮助商家找到有针对性的广告发布的渠道，从而更好的有效增加广告的定向投放力度，对平台有商业价值首先发现自己感兴趣的微博关键词或者主题词能带来很大方便，主题词的抽取后就能比较精确地根据用户的对关键词的关心搜索提及的排名程度进行相关的优先推送，然后搜索系统也可以根据用户的关键词提及或者联想、排名程度来定制搜索结果，以便于提

21、升用户的搜索体验。以下是主题词抽取的两个研究重点：（1）通过清楚和明白LDA模型的研究现状，并对LDA主题模型的三种模式相关深入研究，从而了解、研究LDA模型对主题词抽样的几种方式的区别，并深入了解三种模式的结果区别和算法，当然作为微博数据挖掘的最常用模型，要对LDA模型的训练过程进行研究和过程熟悉。（2）重点有这样三种算法:吉布斯(Gibbs)抽样算法、IF-IDF提取关键词算法、针对网络中心节点的中心度算法对关键词的抽取的准确度效果的比较，得出三种算法中有效果的主题词抽取。（3）主题词抽取测试，包括语料准备、测试、衡量标准确定、测试实验，效果对比与总结。通过本研究可以发现，在微博基础上更好

22、的提取关键主题词，使用户信息能够很全面完整的挖掘出用户背后联系的挖掘方面。基于实验得到的微博主题词关键抽取可以用于微博用户背后关系的个性化服务，从而为达到广告的精准投放，提升用户的友好度以及带来更多的收益打下坚实的数据基础。第2章标准的LDA模型2.1 LDA模型研究的现状众所周知，随着互联网时代的不断加速发展，微博这样的新型的社交新媒体不仅仅使信息产生和传递发生爆炸式增长，也让这些不断产生的信息本身具备的各种价值挖掘遇到了前所未有的挑战。故迫切寻找能有效挖掘出微博这样的社交化新媒体本身的用户需求和兴趣的一种模型成为现在数据挖掘的研究热门。这几年，关于微博主题词的数据挖掘逐渐成为微博数据挖掘的

23、重点，当然目前基于用户兴趣构建模型方法很多，但是有关微博主题词热度的构建模型方法还在不断发展中。下面研究采用LDA模型，但为了解决传统的LDA模型在进行微博主题词热度挖掘时候得到的结果概率难以用实际解释和抽象等问题，能合理抽取微博主题词。2.2 标准LDA模型的基本原理标准的LDA模型，中文名称：隐含狄利克雷分配，这个模型有三层结构，分别是文档、主题、词。同时能将文档和词通过背后隐含的主题关联来实现和识别巨大的语料库背后隐含的巨大文档集合和主题信息，当然也是一种非监督机器学习技术。我们可以这样去理解LDA4模型：LDA模型可以用某个方面或者概念都可以表现成一系列的相关单词的条件概率。可以这样通

24、俗的理解：主题就像大箱子，有概率低、中、高的单词，这些单词或多或少能与主题背后有很强的隐含关系。而这个LDA模型就是要解决如何才能生成主题，如何对文章的主题进行分析，从而识别背后的隐含的文档集合和主题信息。当然对于LDA模型的过程可以这样理解：文档中的词是通过具体的概率选择了具体的主题，并从具体主题中以具体概率选择具体的特定的词语。在已有的LDA模型中，词在文档中可视的，而主题在文档中是随机变化的。假设能生成文档，那么文档中的单词展现的概率为：假设这样的去定义，在Z个单词、N篇文档和W个主题情况下，M参数代表主题，那么在文档中的第i个单词的概率如下表示：2.3 LDA模型生成的三种模式针对如何

25、生成M份包含N个单词的文档这个问题，LDA模型有以下三个方法5：2.3.1单字模式单子模式其实很简单可以这样去理解：有 1个文档生成情况下，文档的单词个数用N表示，生成的第n个单词w可以用w_n表示，单词w的分布用p(w)去表示，从现有语料库统计得到。这种方法需要先通过训练后的语料库获得具体单词的概率分布函数，并且再通过这个概率分布函数每次去生成具体单词，用这个方法反复M次后就能生成M个文档。例如在一篇文档，去统计各个单词在文档中出现的概率也是用这样的模式去统计的。如图2-1所示就是单子模式图形表示：图2-1 单子模式图wMN2.3.2混合模式很明显就是生成的文本过于简单和没有主题是LDA模型

26、的不足之处，接下来的混合模式对这个部分进行了改进。用这个模式去生成 1个文档，其中主题用z表示，主题的概率分布用p(z)表示，概率分布是主题z通过p(z)产生；其中文档的单词个数用N表示，生成的第n个单词w用w_n表示，在主题z时单词w的分布用p(w|z)表示，主题的个数为K，单词的个数为V整体可以看成一个K*V的矩阵，这个主题对应的单词的概率分布可以用每行表示是所包含的各个单词的概率，一定概率生成每个单词通过这个概率去分布。如图2-2所示就是混合模式图形：Nwz图2-2 综合模式图MN2.3.3综合模式第三种模式综合模式6能够生成的1个文档能包含多个主题，每个主题在文档出现的概率用主题向量的

27、每一列表示，的狄式分布用p()表示，其中文档的单词个数用N表示，生成的第n个单词w用w_n表示，选择的主题用z_n表示，在主题z时单词w用p(w|z)表示，给定主题向量时主题z的概率分布用p(z|)表示，即p(z=i|)= _i就可以确定具体为的值了。这种模式确定每个主题被选择的概率可以首先确定一个主题向量，然后当每个单词生成，就选择一个主题z从主题分布向量中抽取，生成一个单词按主题z的单词概率分布。如图2-3所示就是综合模式图：图2-3 综合模式图wzM 可以这样解释上面的图形：1. -M：生成过程只采样一次只因为每个文档都一样的语料级别的参数特别用和表示。2. -N：文档的变量用表示，因为

28、与文档一一对应，这样就可以解释为什么不同的主题z在不同的文档产生的概率是不同的，采样一次就能生成一次文档。3. z-w：单词的变量用z和w表示，z和共同生成w，生成z，单词与主题一一对应。总结：上面三种对LDA生成模型的探讨可以看出，学习、训练LDA模型的两个控制参数和，主要是从已有的输入语料获得，确定整个模型是靠两个控制参数和，然后生成文档。其中和分别对应以下各个信息：分布p()需要一个向量参数用表示，可用于生成一个主题向量；不同主题一一对应的单词概率分布矩阵p(w|z)用表示。2.4 LDA模型的训练过程如何训练LDA模型？针对文档中的每个词所对应的主题，要采取这样的过程：首先用抽样公式来

29、进行反复迭代抽样，再估计出每次参数进行反复迭代后的结果，然后用词主题可以用于预测下一个文档上的主题分布。其中训练7的流程有以下四个步骤：（1）一开始初始化，当然要随机处理，每个词n在现有语料中，随机一个主题z被赋予；（2）然后需要重新读取整个现有语料库，每个词n在每篇文档中，它的主题用抽样公式重新采样，不断在现有语料库更新；（3）再次循环（2）步骤，直到抽样过程完全收敛；（4）最后统计语料库中词主题形成的矩阵，分析得到M个主题词的分布概率。从训练过程就可以得知，主题和词的数量与LDA模型的空间规模息息相关，其中代表的意思就是 LDA模型在如今爆炸式增长的互联网空间规模特别是语料训练大规模集

30、合的性能十分优越。正因为有这样的优势，LDA模型能在数据挖掘领域受到很大的关注。因为跟数量有关，所以也存在着缺点，在需要多轮迭代的抽样公式下，计算量会很大。第3章基于LDA模型的主题词抽取方法3.1 吉布斯(Gibbs)抽样算法采用抽样公式去抽取主题是充分考虑到LDA模型，采用吉布斯(Gibbs)抽样8推导和提取主题是十分高速有效直接的抽样方式，原理是通过获取LDA模型相关参数来计算，获取单词的片段数目和准确率从而算出模型所具备的各种参数和主题词的概率分布。为了能有效提高主题词抽取的效率，下面研究是利用快速Gibbs抽样进行推理，利用基于LDA模型，从而算出模型所具备的各种参数和主题词的概率分

31、布。其中首先提取相关的主题词采取香农信息来，再通过查找语料库的单词产生隐含关联和联想。这样操作明显优于其他模型，更加符合人的直觉判断。接下来阐述Gibbs抽样公式和过程：1、首先来表示估计每个文档的词对应个主题的条件概率。其中用来表示单词i所属的主题是j ；表示排除单词i以外的其他词的主题信息；目前单词i用表示；d代表当前文本；“o”代表已知的其他信息，包括超参数，等。抽样出单词i最新的主题使用条件概率。进一步分析条件概率，可以得到：其中，公式中W*t和D*t的矩阵用和表示，j的次数用表示，后者代表单词j的数目用文档d中主题表示。分成左右两部分，单词w是主题j的概率用左部分可以表示，主题j在

32、文档d中的分布情况是右边表示。假设被认为与主题j等同，则会加大其他单词是主题j的概率。同样的在文档d主题j中频繁出现，那么文档中词w是主题j的概率也会加大。所以在迭代一开始，抽样值是没有任何意义，关键考虑这个对概率的预测准确度不精确。我们在进行Gibbs抽样算法时，首先需要随机词w的主题确定，并和初始化，接着反复进行上面迭代。当反复进行迭代k次后，抽样样本X开始接近目标概率分布，抽取样本是每隔一定次数C，其中k称为里间距，C称为外间距。当Gibbs抽样进行过程中，样本能直接给出主题的每个词，我们测试数据时，可以提取和9的估计公式如下：上面的公式对于主题在单词和主题上的概率分布通过Gibbs抽样方法使得LDA模型获得了。3.2 IF-IDF提取关键词算法IF-IDF算法10是目前关键词标引最早的技术之一，能够在统计的词语关键词基础上提取的一种方法，正在逐渐进化成关键词提取算法。该算法原理是这样的：全部文档数量在某个文档集中，测试文档D中，既可以利用TF-IDF方法（如下面的公式）计

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？