欢迎来到天天文库
浏览记录
ID:42385793
大小:20.10 KB
页数:4页
时间:2019-09-14
《LDA是比PLSA更高级》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、LDA是比PLSA更“高级”的一种topicmodel。“高级”在哪里呢?--它是一个BayesHierarchyModel。所谓BayesHierarchyModel说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。Topicmodel的一个通式为P(w
2、d)=sigma{p(w
3、z)*p(z
4、d)}其中云里雾里的topic,说白了就是一个一元语言模型,没有任何特殊的地方。对应上面的公式,就是p(w
5、z)。而topicmodel,一般指的是两种分布:第一种就是topic~word的分布,就是p(w
6、z)。第二种是p(z
7、d),这个是doc~topic
8、分布。有了这两种分布后,这个文档集合就有了一种立体化的感觉,闭上眼睛,仔细地想:doc
9、----------------------------------------
10、
11、...
12、topic_1 topic_2 topic_m而topic_i
13、----------------------------------------
14、
15、...
16、word_1 wor
17、d_2 word_n一个三层的文档表示空间跃然纸上。而最上层,就是人们常说的“降维”,其实是把文档投影到了“topic”空间。doc~topic~word这个BayesChain,就可以涵盖LDA的一个最基本的思想。而PLSA其实也是这个链,那它和LDA有什么区别呢?最大的区别就在于,doc~topic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超参数,对doc~topic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的[对于doc~topic]就只有一个超参数。那么加什么先
18、验呢?最基本的PLSA和LDA在刻画doc~topic和topic~word都利用了一个模型,就是multinomialmodel。为了计算的方便及先验的有意义,共轭先验是首选。multinomialdistribution的共轭分布是Dirichletdistribution,很nice的一个分布。这也是LatentDirichletAllocation中Dirichlet的由来。Dirichletprior是一个巨牛的先验:Bayespriorsmoothing的先验也是Dirichlet,因为在一元语言模型中,也采用了multinomial来刻画。而且在PLSA中引入的先验也
19、是Dirichlet。那么它到底有什么好处呢?让大家这么对它着迷。计算简单性是大家都知道的,现在说一点它的奇妙的implictidea:拿Bayespriorsmoothing说:P(w
20、d)={c(w,d)+mu*p(w
21、c)}/{
22、d
23、+mu}而最大似然的估计是P_ml(w
24、d)=c(w,d)/
25、d
26、平滑后的分母为c(w,d)+mu*p(w
27、c){原来为c(w,d)}平滑后的分子为
28、d
29、+mu{原来为
30、d
31、}所以奇妙的地方就在不同的地方:好像文档多了mu个词,在这个mu新词中,有mu*p(w
32、c)这么多的w这就是pseudocount的思想。理解了这个以后,PLSA加先验的推导
33、,就不用再手推了。只要把这些多出来的先验词加上。一切就OK了。所以大家请记住吧,这对巨牛的共轭先验multinomial&Dirichlet那么如何推导LDA的那些参数呢?大体有两种方法:一种是作者的varitionalinference;另外一种是GibbsSampling。我比较熟悉的是GibbsSampling。大家可以上网去搜GibbsLDA的源代码。只要学会了GibbsSampling,那么这个代码很简单。GibbsSampling的一个最大的优点就是很好理解。具体理解部分略去。回到上面的话题:在这个层级结构中:doc~topic~word,刚才说到LDA是对(doc~t
34、opic)加了一个先验。然后他是如何利用这个先验的呢?利用了exchangabiltity。所谓可交换性,就是conditionalindependentandidenticallydistributed;注意与i.i.d的区别,“conditional”对应到LDA中,是那个超参数给定后,才能得出i.i.d。。。需要自己看paper理解。在我给定了doc~topic的先验后,对于一个文档,我取不同的topic的过程完全是独立的。这也是层级模型的一个很优美的地方。Wo
此文档下载收益归作者所有