欢迎来到天天文库
浏览记录
ID:15068389
大小:599.65 KB
页数:14页
时间:2018-08-01
《自然语言处理中主题模型的发展》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第34卷第8期计算机学报Vol.34No.82011年8月CHINESEJOURNALOFCOMPUTERSAug.2011自然语言处理中主题模型的发展徐戈王厚峰(北京大学计算语言学研究所,北京大学计算语言学教育部重点实验室北京100871)摘要主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行
2、了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系.关键词自然语言处理;主题模型;隐性语义索引;LDA;期望最大化算法;Gibbs采样中图法分类号TP391犇犗犐号:10.3724/SP.J.1016.2011.01423犜犺犲犇犲狏犲犾狅狆犿犲狀狋狅
3、犳犜狅狆犻犮犕狅犱犲犾狊犻狀犖犪狋狌狉犪犾犔犪狀犵狌犪犵犲犘狉狅犮犲狊狊犻狀犵XUGeWANGHouFeng(犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犆狅犿狆狌狋犪狋犻狅狀犪犾犔犻狀犵狌犻狊狋犻犮狊狅犳犕犻狀犻狊狋狉狔狅犳犈犱狌犮犪狋犻狅狀(犘犲犽犻狀犵犝狀犻狏犲狉狊犻狋狔),犐狀狊狋犻狋狌狋犲狅犳犆狅犿狆狌狋犪狋犻狅狀犪犾犔犻狀犵狌犻狊狋犻犮狊,犘犲犽犻狀犵犝狀犻狏犲狉狊犻狋狔,犅犲犻犼犻狀犵100871)犃犫狊狋狉犪犮狋Topicmodelsarereceivingextensiveattentioninnaturallanguageprocessing.Inthi
4、sfield,atopicisregardedasprobabilisticdistributionofterms.Topicmodelsextractsemantictopicsusingcooccurrenceoftermsindocumentlevel,andareusedtotransformdocumentslocatingintermspacetotheonesintopicspace,obtainingthelowdimensionalrepresentationofdocuments.ThispaperstartsfromLatentSem
5、anticIndexing(LSI),theoriginoftopicmodels,anddescribespLSIandLDA,thefundamentalworksinthedevelopmentoftopicmodels,withfocusontherelationshipamongtheseworks.Asagenerativemodel,LDAcanbeeasilyextendedtoothermodels.ThispapermakesasimplecategorizationontopicmodelsderivedfromLDA,andreprese
6、ntativemodelsofeachcategoryareintroduced.Furthermore,EMalgorithmsinparameterestimationoftopicmodelsareanalyzed,whichhelptounderstandtherelationshipofworksduringthedevelopmentoftopicmodels.犓犲狔狑狅狉犱狊naturallanguageprocessing;topicmodel;latentsemanticindexing;latentdirichletallocation;e
7、xpectationmaximizationalgorithm;Gibbssampling收稿日期:20090526;最终修改稿收到日期:20110525.本课题得到国家自然科学基金(91024009,60973053,90920011)资助.徐戈,男,1978年生,博士研究生,主要研究方向为自然语言处理、情感分析.Email:xuge@pku.edu.cn.王厚峰,男,1965年生,教授,博士生导师,主要研究领域为自然语言处理、情感分析、指代消解、信息抽取等.1424计算机学报2011年1引言2主题模型的主要内容在自然语言处理中,主题(topic)①
8、可以看成是一个主题模型通
此文档下载收益归作者所有