主题模型介绍.ppt
《主题模型介绍.ppt》由会员分享,可在线阅读,更多相关《主题模型介绍.ppt(14页珍藏版)》请在冰豆网上搜索。
![主题模型介绍.ppt](https://file1.bdocx.com/fileroot1/2022-10/7/119c1e3c-eb1a-49c4-a16c-2cfeb5ba8ca5/119c1e3c-eb1a-49c4-a16c-2cfeb5ba8ca51.gif)
主题模型介绍,张永俊信息系统工程实验室中国人民大学,主要内容,Dirichlet-Multinomial共轭分布LSA、Unigrammodel和PLSALDA模型GibbsSampling,张永俊信息学院中国人民大学,2,Dirichlet-Multinomial共轭分布,Multinomial分布Dirichlet分布,张永俊信息学院中国人民大学,3,Dirichlet-Multinomial共轭分布,贝叶斯法则共轭分布:
后验概率分布和先验概率分布有相同的形式,张永俊信息学院中国人民大学,4,隐性语义分析(LSA),VSM:
不能解决一词多义和一义多词LAS:
SVD分解左奇异向量表示词的一些特性,右奇异向量表示文档的一些特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序,数字越大越重要。
缺乏严谨的数理统计基础,而且SVD分解非常耗时,张永俊信息学院中国人民大学,5,Unigram模型,每篇文档都是由各个词组成(文档词)所有的词服从独立的Multinomial分布Dirichlet先验下的Unigrammodel:
张永俊信息学院中国人民大学,6,PLSA模型,每个文档的主题服从Multinomial分布每个主题下的词项上服从Multinomial分布生成方式给定文档d后,以一定的概率选择d对应的主题z,然后以一定概率选择z中的词语w,张永俊信息学院中国人民大学,7,PLSA模型,P(z|d):
给定文档下主题的概率:
M*K,文档-主题矩阵P(w|z):
给定主题下词的出现概率:
K*V,主题-词矩阵,张永俊信息学院中国人民大学,8,LDA,在PLSA基础上加入Dirichlet先验分布,张永俊信息学院中国人民大学,9,张永俊信息学院中国人民大学,10,张永俊信息学院中国人民大学,11,w是观测值已知,z是隐含变量,真正需要采样的是,Gibbssampling,MCMC步骤:
1.choosedimensioni(randomorbypermutation)2.samplexifrom3.Iteration.,张永俊信息学院中国人民大学,12,张永俊信息学院中国人民大学,13,最终得到文档主题,主题词分布,张永俊信息学院中国人民大学,14,