欢迎来到天天文库
浏览记录
ID:54925711
大小:451.00 KB
页数:7页
时间:2020-05-04
《LDA模型在微博用户推荐中的应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第40卷第5期计算机工程2014年5月、,0l
2、40NO.5ComputerEngineeringMav2014·移动社交专题·文章编号:1000—3428(2014)05-0001—06文献标识码:A中图分类号:TP311.13LDA模型在微博用户推荐中的应用邸亮,杜永萍(北京工业大学计算机科学与技术学院,北京100124)摘要:潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档一主题一词的三层LDA模型变为用户一主题·词的
3、用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。关健词:主题模型;潜在狄利克雷分配;微博;用户模型;兴趣分析;用户推荐Application0fLDAModelinMicroblogUserRecommendationDILiang.DUYong-ping(InstituteofComputerScienceandTechnology,BeijingUniversityofTechnology,Beijing100124,China)[Abstract]Lat
4、entDirichletA11ocation(LDA)modelcanbeusedforidentifyingtopicinformationfromlarge—scaledocumentset,buttheefectisnotidealforshorttextsuchasmicroblog.ThispaperproposesamicroblogusermodelbasedonLDA,whichdividesmicroblogbasedonuserandrepresentseachuserwiththeirpostedmicrobolgs.Thus,thestandardthreelayers
5、inLDAmodelbydocument—topic-wordbecomesausermodelbyuser-topic—word.Themodelisappliedtouserrecommendation.Experimentonrealdatasetshowsthatthenewprovidedmethodhasabetterefect.Withapropertopicnumber,theperformanceisimprovedbynearly10%.[Keywords]topicmodel;LatentDirichletA11ocation(LDA);microblog;usermod
6、el;interestanalysis;userrecommendationDOI:1O.3969/j.issn.1000-3428.2014.05.OOl被很好地挖掘出来。研究显示【4j,当这个语义空间的维度和l概述人类语义理解的维度相近时,LSA能够更好地近似于人类传统的主题挖掘是采用文本聚类的算法【JJ,通过向量空的理解关系,即将表面信息转化为深层次的抽象pJ。间模型(VectorSpaceModel,VSM)将文本里的非结构化数PLSA(ProbabilisticLatentSemanticAnalysis)是文献[6】据映射到向量空间中的点,然后用传统的聚类算法,如基在研究LSA的基
7、础上提出的基于最大似然法和产生式模型于划分的算法(如K-means算法)、基于层次的算法(如自顶的概率模型。PLSA沿用了LSA的降维思想:在常用的文向下和自底向上算法)、基于密度的算法等J,实现文本聚本表达方式(tf-idf)下,文本是一种高维数据;主题的数量是类。聚类结果可以近似认为满足同一个主题。但是,这种有限的,对应低维的语义空间,主题挖掘就是通过降维将基于聚类的算法普遍依赖于文本之间距离的计算,而这种文档从高维空间投影到了语义空间。PLSA通常运用EM算距离在海量文本中是很难定义的;此外,聚类结果也只是法对模型进行求解。在实际运用中,由于EM算法的计算起到区分类别的作用,并没有给出语
8、义上的信息,不利于复杂度小于传统SVD算法,PLSA在性能上、在处理大规人们的理解。模数据方面也通常优于LSA。LSA(LatentSemanticAnalysis)是文献[3】提出的一种基潜在狄利克雷分配(LatentDirichletAllocation,LDA)在于线性代数挖掘文本主题的新方法。LSAfiJ用SVD(SingularPLSA的基础上加入了Dirichlet先验分布,是PLSA
此文档下载收益归作者所有