大规模主题模型建模及其在腾讯业务中的应用.pdf

大规模主题模型建模及其在腾讯业务中的应用.pdf

ID:58314568

大小:3.14 MB

页数:46页

时间:2020-09-07

大规模主题模型建模及其在腾讯业务中的应用.pdf_第1页
大规模主题模型建模及其在腾讯业务中的应用.pdf_第2页
大规模主题模型建模及其在腾讯业务中的应用.pdf_第3页
大规模主题模型建模及其在腾讯业务中的应用.pdf_第4页
大规模主题模型建模及其在腾讯业务中的应用.pdf_第5页
资源描述:

《大规模主题模型建模及其在腾讯业务中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Peacock:大规模主题模型及其在腾讯业务中的应用Rickjin(靳志辉)!腾讯SNG效果广告平台部Outline•PeacockDemo!•主题模型背景介绍!•大规模主题模型学习系统Peacock!•Peacock在腾讯业务中的应用•红酒木瓜汤!•苹果!•莫代尔3PeacockDemo45678Peacock TeamPeacock: Learning Long‐Tail Topic Features for Industrial Applications ACM Transactions on Intelligent Systems

2、 and Technology, 2014Yi WangXuemin ZhaoZhenlong SunHao YanLifeng WangZhihui JinLiubin Wang9Doc-TopicStructure•Doc是由topic组成的!•Topic是Vocab上的概率分布[Hofmann,1999]PLSATopicModelingDocsTopicsWordsP(topic

3、doc)P(word

4、topic)DocsTopicsWordsLDATopicModelingP(topic

5、doc)P(word

6、topic)LDAModel

7、TrainingNNt,dw,tStep1:随机初始化每个词的topicDoc_1ww…w!!!zzzz……!Doc_nww…wzzzzLDAModelTrainingNNt,dw,tStep2:重新采样每个topic,更新计数Doc_1ww…w!!!zzzz……!Doc_nww…wzzzzP(topic

8、doc)P(word

9、topic)LDAModelTrainingNNt,dw,tStep3:重新采样每个topic,更新计数‐1wDoc_1ww…w!‐1!+1!zzzz……+1!Doc_nww…wzzzzP(topic

10、doc)P(word

11、t

12、opic)LDAModelTrainingNNt,dw,tStep4:重复step2&3,直到模型收敛Doc_1ww…w!!!zzzz……!Doc_nww…wzzzzP(topic

13、doc)P(word

14、topic)wwLarge-scaleLDAModelingzzzz•Q1:如何提升GibbsSampling速度!NN•标准采样算法太慢!t,dw,t!•Q2:如何支持大数据、大模型!‐1‐1•十亿文档,百万词汇,百万topic+1!+1•Q3:如何调参优化模型质量!•alpha,beta如何选取!•topic个数如何考虑Peacock:Large

15、-scaleTopicModeling•Q1:如何提升GibbsSampling速度!•使用SparseLDA算法做GibbsSampling•比标准LDA快30倍!•Q2:如何支持大数据、大模型!•基于Go语言实现!•矩阵分块并行计算!•可以支持10亿x1亿的矩阵分解!•可以支持100万topics计算!•类似GoogleRephil系统,挖掘长尾语义!•Q3:如何调参优化模型质量!•每轮迭代对超参数做优化,智能训练topics个数18DocsTopicsWordsQ1:采样速度•标准LDA采样!•计算所有路径的累积概率!•计算速度慢!•概率路径

16、是sparse的P(topic

17、doc)P(word

18、topic)DocsTopicsWordsSparseLDA•按照路径类型计算概率分布!•先按路径类型概率分布采样!•在类型内部采样路径LiminYao,DavidMimno,andAndrew!McCallum.EfficientMethodsforTopic!ModelInferenceonStreaming!Path‐NumProbabilityDocumentCollections.KDD2009.100.8200.1700.0999000.01Q2:十亿篇文档,百万词汇,百万Topics

19、Doc_1ww…w!!!zzzz……W, T!Doc_nww…wzzzzAD-LDA(DataParallelism)(W, T) (1)N(1) L Nt,dw,taba(W, T) (2)(2)L NG NNt,dw,tbaw,t(W, T) (3)N(3)L Nbt,dw,tModelParallelismab(1)(1)(1)(1)1.11.21.3LNGNt,dLNt,dLNt,dt,d(2)(2)(2)(2)2.12.22.3LNGNt,dLNt,dLNt,dt,d(3)(3)(3)(3)3.13.23.3LNGNt,dLNt,dLNt,

20、dt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronizatio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。