资源描述:
《大规模主题模型建模及其在腾讯业务中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大规模主题模型建模及其在腾讯业务中的应用Rickjin(靳志辉)腾讯SNG效果广告平台部Outline•主题模型背景介绍•大规模主题模型学习系统Peacock•Peacock在腾讯业务中的应用Doc-TopicStructure•Doc是由topic组成的•Topic是Vocab上的概率分布[Hofmann,1999]DocsTopicsWordsLDATopicModelingP(topic
2、doc)P(topic
3、word)LDAModelTraining(1)Nt,dNw,tStep1:随机初始化每个词的
4、topicDoc_1ww…wzzzz……Doc_nww…wzzzzLDAModelTraining(2)Nt,dNw,tStep2:重新采样每个topic,更新计数Doc_1ww…wzzzz……Doc_nww…wzzzzP(topic
5、doc)P(topic
6、word)LDAModelTraining(3)Nt,dNw,tStep3:重新采样每个topic,更新计数-1wDoc_1ww…w-1+1zzzz……+1Doc_nww…wzzzzP(topic
7、doc)P(topic
8、word)LDAModelTrai
9、ning(4)Nt,dNw,tStep4:重复step2&3,直到模型收敛Doc_1ww…wzzzz……Doc_nww…wzzzzP(topic
10、doc)P(topic
11、word)Large-scaleLDAModelingwwzzzz•Q1:如何提升GibbsSampling速度•标准采样算法太慢Nt,dNw,t•Q2:如何支持大数据、大模型-1-1•十亿文档,百万词汇,百万topic+1+1•Q3:如何调参优化模型质量•alpha,beta如何选取•topic个数如何考虑Peacock:Large-scal
12、eTopicModeling•Q1:如何提升GibbsSampling速度•使用SparseLDA算法做GibbsSampling•比标准LDA快30倍•Q2:如何支持大数据、大模型•基于Go语言实现•矩阵分块并行计算•可以支持10亿x1亿的矩阵分解•可以支持100万topics计算•类似GoogleRephil系统,挖掘长尾语义•Q3:如何调参优化模型质量•每轮迭代对超参数做优化,智能训练topics个数10DocsTopicsWordsQ1:采样速度•标准LDA采样•计算所有路径的累积概率•计算速度慢•概率
13、路径是sparse的P(topic
14、doc)P(topic
15、word)DocsTopicsWordsSparseLDA•按照路径类型计算概率分布•先按路径类型概率分布采样•在类型内部采样路径LiminYao,DavidMimno,andAndrewMcCallum.EfficientMethodsforTopicModelInferenceonStreamingPath-IDProbabilityDocumentCollections.KDD2009.100.8200.1700.09Sumofothers0.0
16、1Q2:十亿篇文档,百万词汇,百万TopicsDoc_1ww…wzzzz……W,TDoc_nww…wzzzzAD-LDA(DataParallelism)(W,T)(1)N(1)LNt,dw,taba(W,T)(2)(2)LNGNNt,dw,tbaw,t(W,T)(3)N(3)LNbt,dw,tModelParallelism-1ab(1)(1)(1)(1)1.11.21.3LNt,dLNt,dLNt,dGNt,d(2)(2)(2)(2)2.12.22.3LNt,dLNt,dLNt,dGNt,d(3)(3)(3
17、)(3)3.13.23.3LNt,dLNt,dLNt,dGNt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tModelParallelism-1ab(1)(1)(1)(1)1.11.21.3LNt,dLNt,dLNt,dGNt,d(2)(2)(2)(2)2.12.22.3LNt,dLNt,dLNt,dGNt,d(3)(3)(3)(3)3.13.23.3LNt,dLNt,dLNt,dGNt,d.1.2.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronization(1)1
18、.13.12.1Nt,d1.13.12.1(2)2.21.23.2Nt,d2.21.23.2(3)3.32.31.3Nt,d3.32.31.3(1)(2)(3)Nw,tNw,tNw,tLock-freeSynchronization1.13.12.1N(1)(1)t,d1.13.12.1Nt,d2.21.23.2N(2)(2)t,d2.21.23.2Nt,d3.32.31.3N(3)(