大规模主题模型建模及其在腾讯业务中的应用

大规模主题模型建模及其在腾讯业务中的应用

ID:36646320

大小:1.86 MB

页数:42页

时间:2019-05-13

大规模主题模型建模及其在腾讯业务中的应用_第1页
大规模主题模型建模及其在腾讯业务中的应用_第2页
大规模主题模型建模及其在腾讯业务中的应用_第3页
大规模主题模型建模及其在腾讯业务中的应用_第4页
大规模主题模型建模及其在腾讯业务中的应用_第5页
资源描述:

《大规模主题模型建模及其在腾讯业务中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大规模主题模型建模及其在腾讯业务中的应用Rickjin(靳志辉)腾讯SNG效果广告平台部Outline•主题模型背景介绍•大规模主题模型学习系统Peacock•Peacock在腾讯业务中的应用Doc-TopicStructure•Doc是由topic组成的•Topic是Vocab上的概率分布[Hofmann,1999]DocsTopicsWordsLDATopicModelingP(topic

2、doc)P(topic

3、word)LDAModelTraining(1)Nt,dNw,tStep1:随机初始化每个词的

4、topicDoc_1ww…wzzzz……Doc_nww…wzzzzLDAModelTraining(2)Nt,dNw,tStep2:重新采样每个topic,更新计数Doc_1ww…wzzzz……Doc_nww…wzzzzP(topic

5、doc)P(topic

6、word)LDAModelTraining(3)Nt,dNw,tStep3:重新采样每个topic,更新计数-1wDoc_1ww…w-1+1zzzz……+1Doc_nww…wzzzzP(topic

7、doc)P(topic

8、word)LDAModelTrai

9、ning(4)Nt,dNw,tStep4:重复step2&3,直到模型收敛Doc_1ww…wzzzz……Doc_nww…wzzzzP(topic

10、doc)P(topic

11、word)Large-scaleLDAModelingwwzzzz•Q1:如何提升GibbsSampling速度•标准采样算法太慢Nt,dNw,t•Q2:如何支持大数据、大模型-1-1•十亿文档,百万词汇,百万topic+1+1•Q3:如何调参优化模型质量•alpha,beta如何选取•topic个数如何考虑Peacock:Large-scal

12、eTopicModeling•Q1:如何提升GibbsSampling速度•使用SparseLDA算法做GibbsSampling•比标准LDA快30倍•Q2:如何支持大数据、大模型•基于Go语言实现•矩阵分块并行计算•可以支持10亿x1亿的矩阵分解•可以支持100万topics计算•类似GoogleRephil系统,挖掘长尾语义•Q3:如何调参优化模型质量•每轮迭代对超参数做优化,智能训练topics个数10DocsTopicsWordsQ1:采样速度•标准LDA采样•计算所有路径的累积概率•计算速度慢•概率

13、路径是sparse的P(topic

14、doc)P(topic

15、word)DocsTopicsWordsSparseLDA•按照路径类型计算概率分布•先按路径类型概率分布采样•在类型内部采样路径LiminYao,DavidMimno,andAndrewMcCallum.EfficientMethodsforTopicModelInferenceonStreamingPath-IDProbabilityDocumentCollections.KDD2009.100.8200.1700.09Sumofothers0.0

16、1Q2:十亿篇文档,百万词汇,百万TopicsDoc_1ww…wzzzz……W,TDoc_nww…wzzzzAD-LDA(DataParallelism)(W,T)(1)N(1)LNt,dw,taba(W,T)(2)(2)LNGNNt,dw,tbaw,t(W,T)(3)N(3)LNbt,dw,tModelParallelism-1ab(1)(1)(1)(1)1.11.21.3LNt,dLNt,dLNt,dGNt,d(2)(2)(2)(2)2.12.22.3LNt,dLNt,dLNt,dGNt,d(3)(3)(3

17、)(3)3.13.23.3LNt,dLNt,dLNt,dGNt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tModelParallelism-1ab(1)(1)(1)(1)1.11.21.3LNt,dLNt,dLNt,dGNt,d(2)(2)(2)(2)2.12.22.3LNt,dLNt,dLNt,dGNt,d(3)(3)(3)(3)3.13.23.3LNt,dLNt,dLNt,dGNt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronization(1)1

18、.13.12.1Nt,d1.13.12.1(2)2.21.23.2Nt,d2.21.23.2(3)3.32.31.3Nt,d3.32.31.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronization1.13.12.1N(1)(1)t,d1.13.12.1Nt,d2.21.23.2N(2)(2)t,d2.21.23.2Nt,d3.32.31.3N(3)(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。