基于LDA 话题演化研究方法综述[J].doc

基于LDA 话题演化研究方法综述[J].doc

ID:49848378

大小:109.50 KB

页数:8页

时间:2020-03-03

基于LDA 话题演化研究方法综述[J].doc_第1页
基于LDA 话题演化研究方法综述[J].doc_第2页
基于LDA 话题演化研究方法综述[J].doc_第3页
基于LDA 话题演化研究方法综述[J].doc_第4页
基于LDA 话题演化研究方法综述[J].doc_第5页
资源描述:

《基于LDA 话题演化研究方法综述[J].doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、屮文信息学报JOURNALOFCHINESEINFORMATIONPROCESSING文章编号:1(X)30077(2010)06()04307基于LDA话题演化研究方法综述单斌,李芳(上海交通大学计算机科学与工程系中徳语言技术联介实验室,上海200240)摘要:现实生活屮不断有新话题的产生和旧话题的衰减.同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。LatentDirichletAllocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面:内容演

2、化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不I司方式将目前的研究方法分为三类:将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比.并且简耍描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。关键词:话题模型;话题演化;LatentDirichletAllocation中图分类号:TP391文献标识码:AASurveyofTopicEvolutionBasedonLDASHANBin,LIFa

3、ng(SinoGermanJointresearchLabforMnguageTechnologies.Dept,ofComputerScience&Enginccring・ShanghaiJiaoTongUniversity,Shanghai200240.China)Abstract:Withtopicsevolveovertime,newtopicsemergeandoldonesdecay・Manyresearchesaredevotedtodetectthetopicevolutionautomatically・latentDir

4、ichletAllocation(IBA),asarecentlyemergedprobabilistictopicmodel.hasbeenwidelyusedintheresearchoftopicevolution.Thispaperdiscussestwoaspectsofevolutionontopic.i.c.thecon(cntandthetopicintensity.ItsummarizesthreemethodsinLDAbasedtopicevolutiondetectionaccordingtothedealingw

5、ithtime:joining(hetimctoLD/model,postdiscrctizingorprcdiscrctizingmethods.ThethreemethodsareaIsocomparedinseveralfeatures:thetimegranularity,onlineoroffline,etc.Inaddition,theevaluationmethodsfortopicevolutionareintroduced.Finally.thepapergivessomeanalysisandsuggestionsf

6、orfutureresearchesontopicevolutionbasedonLDA.Keywords:topicmodel;topicevolution;LatentDirichletAllocation收稿日期:20091202定稿日期:20100401基金项目:国家自然科学基金资助项11(60873134)作者简介单斌(1986),男,硕士,主要研究领域为自然语言处理,信息检索和信息抽取;李芳(1963),女,博士,副教授.主要研究领域为自然语言处理,信息检索与信息抽取。1引言互联网已经成为人们获取信息的一个主耍渠道,突发新闻事

7、件或新闻话题可以在互联网上瞬间传播,如何跟踪该新闻话题或新闻事件的后续发展,是人们关心和需耍迫切解决的问题。随着时间的发展,新闻话题的内容会发生变化,新闻话题的强度也会经历一个从高潮到低潮的过程。如何有效地组织这些人规模文档,并且按时间顺序来获取文本集合中话题的演化,从而帮助用户追踪感兴趣的话题,具有实际意义。更重耍的是,在新闻专题报道和一些安金机构针对犯罪探测和预防的任务屮,更需要从文本集合屮快速准确地追踪话题的演化并且根据演化做出相应的预测。因此,话题演化研究具有现实的应用背景。早在话题检测与跟踪(TopicDetectionandT

8、racking,简称TDT)研究中,人们就已经认识到对新话题的口动识别和己知话题的持续跟踪的重耍性。在TDT屮,话题被定义为一个种子事件或活动以及与之相关的所有事件或活动H,o话题跟踪(Top

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。