资源描述:
《《概率主题模型》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、概率主题模型ProbabilisticTopicModels靳婷目录引言TF-IDF模型LSI模型(LatentSemanticIndex,潜在语义索引)概率主题模型简介一元混合模型(Mixtureofunigrams)PLSI模型(ProbabilisticLatentSemanticIndex,概率潜在语义索引)LDA模型(LatentDirichletAllocation)模型描述抽取算法TF-IDF模型主要思想:建立一个矩阵
2、V
3、*
4、D
5、,
6、V
7、词典中单词的个数,
8、D
9、语料库中文本的TF:对于每一个词,在所有文本中出现的次数IDF:包
10、含这个词的文本数的倒数贡献:不足:不对语义进行识别存储空间、计算量非常大长度不固定的文本长度固定的矩阵LSI模型(LatentSemanticIndex,潜在语义索引)奇异值分解:对角矩阵行代表一个词,列代表一个文档概率主题模型主要思想文档是若干主题的混合分布每个主题又是一个关于单词的概率分布一元混合模型(Mixtureofunigrams)一元模型:每个文本的词语都是独立地从一个多项式分布产生简单直观的词频概率模型,没有考虑文本的主题一元混合模型(Mixtureofunigrams)首先选择一个主题z,然后根据条件多项式独立地生成该文本的N
11、个词语,每个文本的概率为:这个模型只允许一篇文本有一个主题p(z)是z的分布p(w
12、z)可看作一个k×
13、V
14、的矩阵一元混合模型(Mixtureofunigrams)V={Film,Music,Tax,Million,Student,Teacher,School},T={Arts,Budgets,Education}.k=3p(w
15、z)是3×7矩阵,若p(w
16、z)的第1行表示主题{Education},这个主题的文本中{Student,Teacher,School}的词频会高些,该行的行向量所表示的分布p(w
17、z)会在{Student,Teac
18、her,School}附近出现峰值若第2行表示主题{Budgets},p(w
19、z)就会在{TAX,MILLION}附近出现峰值在生成一篇文档前先随机选出p(w
20、z)的第z行(根据分布p(z));再依次随机选出第z行的w1,w2,…,wN列(每次选取都根据分布p(w
21、z)),这就生成了文本中的所有单词PLSI模型(ProbabilisticLatentSemanticIndex,概率潜在语义索引)放弃了LSI所用的矩阵转换的方法,采用生成模型引入了“潜在主题”—一个随机生成过程当中的潜在变量PLSI模型(续)PLSI是一个k*
22、D
23、矩阵是先验概
24、率:只建立在已见的训练集的基础上,训练集之外的未见文本,没有一个合适的先验概率训练样本增加,矩阵的大小也线性增加,存在过度拟合问题离散,不同主题之间在概率上是相互独立的LDA模型(LatentDirichletAllocation)非监督机器学习识别隐含的主题信息Dirichlet概率分布,连续分布,可以给未知文本分配属于某个主题集的概率,产生一个主题的集合LDA模型(续)假设有个主题,所给文本中的第个词汇可以表示如下:,潜在变量,表明第个词汇记号取自该主题,词汇记号属于主题的概率,给出主题属于当前文本的概率LDA模型(续)表示对于主题,个词
25、汇上的多项分布表示对于文本,个主题上的多项分布LDA模型(续)文本上的主题分布主题主题上的单词分布单词文本LDA模型(续)LDA概率主题模型生成文本的过程:根据泊松分布得到文本的单词数目根据Dirichlet分布得到该文本的一个主题分布概率向量对于该文本个单词中的每一个单词从的多项式分布随机选择一个主题从主题的多项式条件概率分布选择一个单词作为LDA模型(续)Chooseparameterθ~p(θ);ForeachoftheNwordsw:Chooseatopicz~p(z
26、θ);Chooseawordw~p(w
27、z);其中θ是一个1×k
28、的随机行向量,p(θ)是θ的分布,它的具体函数形式就是Dirichlet分布,这一分布保证θ的k个分量θ_1,θ_2,…,θ_k都取连续的非负值,且θ_1+θ_2+…+θ_k=1z_n是离散随机变量,在主题T中取k个离散值,p(z
29、θ)是给定θ时z的条件分布,它的具体函数形式很简单,就是把θ直接拿来作为概率值p(z=i
30、θ)=θ_i,也就是说z取第1,2,…k个主题的概率分别是θ_1,θ_2,…,θ_kw_n是离散随机变量,在词汇表V中取
31、V
32、个离散值,p(w
33、z)是给定z_n时w的条件分布,看作k×
34、V
35、的矩阵LDA模型(续)-生成过程先随
36、机生成一个1×k的向量θ(根据Dirichlet分布p(θ))然后随机选取p(w
37、z)的第z_1行(根据分布p(z
38、θ))接着随机选取z_1行的w_1列(根据分布p