1、主题模型介绍,张永俊 信息系统工程实验室中国人民大学,主要内容,Dirichlet-Multinomial 共轭分布LSA、Unigram model 和PLSALDA模型Gibbs Sampling,张永俊 信息学院 中国人民大学,2,Dirichlet-Multinomial 共轭分布,Multinomial分布Dirichlet分布,张永俊 信息学院 中国人民大学,3,Dirichlet-Multinomial 共轭分布,贝叶斯法则共轭分布:后验概率分布和先验概率分布有相同的形式,张永俊 信息学院 中国人民大学,4,隐性语义分析(LSA),VSM:不能解决一词多义和一义多词LAS:SVD
2、分解左奇异向量表示词的一些特性,右奇异向量表示文档的一些特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程序,数字越大越重要。缺乏严谨的数理统计基础,而且SVD分解非常耗时,张永俊 信息学院 中国人民大学,5,Unigram 模型,每篇文档都是由各个词组成(文档词)所有的词服从独立的Multinomial分布Dirichlet先验下的Unigram model:,张永俊 信息学院 中国人民大学,6,PLSA模型,每个文档的主题服从Multinomial 分布每个主题下的词项上服从Multinomial 分布生成方式给定文档d后,以一定的概率选择d对应的主题z,然后以一定概率选
3、择z中的词语w,张永俊 信息学院 中国人民大学,7,PLSA模型,P(z|d):给定文档下主题的概率:M*K,文档-主题矩阵P(w|z):给定主题下词的出现概率:K*V,主题-词矩阵,张永俊 信息学院 中国人民大学,8,LDA,在PLSA基础上加入Dirichlet先验分布,张永俊 信息学院 中国人民大学,9,张永俊 信息学院 中国人民大学,10,张永俊 信息学院 中国人民大学,11,w是观测值已知,z是隐含变量,真正需要采样的是,Gibbs sampling,MCMC步骤:1.choose dimension i(random or by permutation)2.sample xi from 3.Iteration.,张永俊 信息学院 中国人民大学,12,张永俊 信息学院 中国人民大学,13,最终得到文档主题,主题词分布,张永俊 信息学院 中国人民大学,14,