最新LDA-系列PPT课件.ppt

最新LDA-系列PPT课件.ppt

ID:62071135

大小:3.11 MB

页数:130页

时间:2021-04-14

最新LDA-系列PPT课件.ppt_第1页
最新LDA-系列PPT课件.ppt_第2页
最新LDA-系列PPT课件.ppt_第3页
最新LDA-系列PPT课件.ppt_第4页
最新LDA-系列PPT课件.ppt_第5页
资源描述:

《最新LDA-系列PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、LDA-系列大纲1.介绍LDA理论知识1.1通过游戏猜数来了解Beta和Dirichlet分布1.2游戏改进来说明两类共轭结构:Beta-Binomial共轭与Dirichlet-Multinomial共轭1.3Beta分布与Dirichlet分布的参数估计性质1.4Gibbs-Sampling算法:由马氏链定理到MCMC算法1.5LDA算法:从PLSA(频率学主张)到LDA(加入贝叶斯学先验知识)2.LDA应用及改进2.1ATopicSimilarityModelforHierarchicalPhr

2、ase-basedTranslation(ACL2012)2.2FindingBurstyTopicsfromMicroblogs(ACL2012)1.1Beta分布与Dirichlet分布游戏:告诉你现在有一个随机数机器([0,1]),并且让你按n次机器随机生成n个随机数,问你第k个大的数是多少?1.1Beta分布与Dirichlet分布1.1Beta分布与Dirichlet分布猜不连续两个数的情况:(x(k1),x(k2))联合分布1.1Beta分布与Dirichlet分布密度函数:猜不连续的K-

3、1个数,可扩展为一般形式的K维Dirichlet分布一般形式的三维Dirichlet分布1.2两类共轭结构Beta-Binomial共轭结构:游戏升级:在前面推导一般Beta分布的基础上再通过随机数机器抽取m个数([0,1]),并且知道这m个数和的大小比较,问这个的大小?由于我们知道这m个数和的大小比较结果,我们设m1个数比大,m2个数比小,那么我们可以知道,因此这m个随机数中的第i个数与比较大小这个事件可以看成一个二项分布问题.1.2两类共轭结构Beta-Binomial共轭结构:因而最后求大小的落

4、位的概率问题转化为:加入了m1个数,共m1+k-1个数加入了m2个数,共m2+n-k个数1.2两类共轭结构Beta-Binomial共轭结构:最后求大小的落位的概率问题是一个后验的Beta分布:即贝叶斯参数估计的基本过程是:先验分布+数据的知识=后验分布从而以上过程可以概括为:Beta-Binomial共轭结构1.2两类共轭结构Dirichlet-Multinomial共轭结构:因此与构成一对Dirichlet-Multinomial共轭结构1.3Beta分布与Dirichlet分布参数估计性质Bet

5、a分布:Dirichlet分布:1.4Gibbs-Sampling算法1.4Gibbs-Sampling算法1.4Gibbs-Sampling算法状态转移矩阵Q’的获得:接受概率1.4Gibbs-Sampling算法在已经通过统计得到转移矩阵Q的前提,构造Q’的过程可以通过MCMC采样算法(Metropolis)描述如下:为了收敛速度提升而不破坏细致平稳条件下,改进:1.4Gibbs-Sampling算法Gibbs—Sampling采样算法(2维):有概率分布p(x,y),点A(x1,y1)和B(x1

6、,y2):1.4Gibbs-Sampling算法Gibbs—Sampling采样算法(n维):以上算法收敛后得到的就是概率分布的样本1.5LDA模型1.5LDA模型PLSA模型(频率学派):主题模型假设:1.一篇文档主题集的概率分布;2.每个主题实际是词典的概率分布;3.文档中的词由主题分布生成.PLSA模型假设:1.有两类分布doc-topic分布和topic-word分布(K个主题、词典规模为V);2.K个topic-word分布,分别编号1…K;3.生成每篇文档都选择一个特定的doc-topic

7、分布,重复以下过程生成文档中的词:√选择topicz;√从topicz中选中词.1.5LDA模型1.5LDA模型LDA物理分解过程:转化为M+K个Dir-Multi共轭结构的理解两个主要过程:a.b.1.5LDA模型a.过程:第m篇文档中topics的概率为(后验的Dir分布):整个语料M篇文档所有topics的概率:1.5LDA模型b.过程:topick产生文档m中词的概率:K个topics生成文档m中词的概率:由(*)和(**)得到LDA模型下语料的生成概率:1.5LDA模型1.5LDA模型LDA

8、模型训练:流程:1.随机初始化:对语料中每篇文档中的每个词w随机赋值一个topic编号z;2.重新扫描语料库,对每个词w按照Gibbs—Sampling公式重新采样它的topic,然后在语料中进行更新;3.重复以上过程直到GibbsSampling状态收敛;4.统计语料库中的topic-word共线频率矩阵,该矩阵就是LDA模型(一般会采用后的n个矩阵做平均后作为最后的LDA模型).2.1应用一:TheTopicSimilarityModelforHie

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。