资源描述:
《大规模主题模型建模及其在腾讯业务中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Peacock:大规模主题模型及其在腾讯业务中的应用Rickjin(靳志辉)!腾讯SNG效果广告平台部Outline•PeacockDemo!•主题模型背景介绍!•大规模主题模型学习系统Peacock!•Peacock在腾讯业务中的应用•红酒木瓜汤!•苹果!•莫代尔 3PeacockDemo 4 5 6 7 8Peacock TeamPeacock: Learning Long‐Tail Topic Features for Industrial Applications ACM Transactions on Intelligent Systems
2、 and Technology, 2014Yi WangXuemin ZhaoZhenlong SunHao YanLifeng WangZhihui JinLiubin Wang 9Doc-TopicStructure•Doc是由topic组成的!•Topic是Vocab上的概率分布[Hofmann,1999]PLSATopicModelingDocsTopicsWordsP(topic
3、doc)P(word
4、topic)DocsTopicsWordsLDATopicModelingP(topic
5、doc)P(word
6、topic)LDAModel
7、TrainingNNt,dw,tStep1:随机初始化每个词的topicDoc_1ww…w!!!zzzz……!Doc_nww…wzzzzLDAModelTrainingNNt,dw,tStep2:重新采样每个topic,更新计数Doc_1ww…w!!!zzzz……!Doc_nww…wzzzzP(topic
8、doc)P(word
9、topic)LDAModelTrainingNNt,dw,tStep3:重新采样每个topic,更新计数‐1wDoc_1ww…w!‐1!+1!zzzz……+1!Doc_nww…wzzzzP(topic
10、doc)P(word
11、t
12、opic)LDAModelTrainingNNt,dw,tStep4:重复step2&3,直到模型收敛Doc_1ww…w!!!zzzz……!Doc_nww…wzzzzP(topic
13、doc)P(word
14、topic)wwLarge-scaleLDAModelingzzzz•Q1:如何提升GibbsSampling速度!NN•标准采样算法太慢!t,dw,t!•Q2:如何支持大数据、大模型!‐1‐1•十亿文档,百万词汇,百万topic+1!+1•Q3:如何调参优化模型质量!•alpha,beta如何选取!•topic个数如何考虑Peacock:Large
15、-scaleTopicModeling•Q1:如何提升GibbsSampling速度!•使用SparseLDA算法做GibbsSampling•比标准LDA快30倍!•Q2:如何支持大数据、大模型!•基于Go语言实现!•矩阵分块并行计算!•可以支持10亿x1亿的矩阵分解!•可以支持100万topics计算!•类似GoogleRephil系统,挖掘长尾语义!•Q3:如何调参优化模型质量!•每轮迭代对超参数做优化,智能训练topics个数 18DocsTopicsWordsQ1:采样速度•标准LDA采样!•计算所有路径的累积概率!•计算速度慢!•概率路径
16、是sparse的P(topic
17、doc)P(word
18、topic)DocsTopicsWordsSparseLDA•按照路径类型计算概率分布!•先按路径类型概率分布采样!•在类型内部采样路径LiminYao,DavidMimno,andAndrew!McCallum.EfficientMethodsforTopic!ModelInferenceonStreaming!Path‐NumProbabilityDocumentCollections.KDD2009.100.8200.1700.0999000.01Q2:十亿篇文档,百万词汇,百万Topics
19、Doc_1ww…w!!!zzzz……W, T!Doc_nww…wzzzzAD-LDA(DataParallelism)(W, T) (1)N(1) L Nt,dw,taba(W, T) (2)(2)L NG NNt,dw,tbaw,t(W, T) (3)N(3)L Nbt,dw,tModelParallelismab(1)(1)(1)(1)1.11.21.3LNGNt,dLNt,dLNt,dt,d(2)(2)(2)(2)2.12.22.3LNGNt,dLNt,dLNt,dt,d(3)(3)(3)(3)3.13.23.3LNGNt,dLNt,dLNt,
20、dt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronizatio