资源描述:
《一种基于密度的自适应最优lda 模型选择方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于密度的自适应最优LDA模型选择方法本课题得到了国家重点基础研究发展计划(973计划)项目(2007CB311100),国家高技术研究发展计划(863)(2007AA01Z416),国家自然科学基金(60773056)和北京市科技新星计划(2007B071)的资助.曹娟,女,1980年生,博士研究生,主要研究方向为多媒体检索,机器学习,E-mail:caojuan@ict.ac.cn,电话:01062600659;张勇东,男,1973年生,副研究员,硕士生导师,主要研究方向为图像和视频处理技术;李锦涛,男,1962年生,研究员,博士生导师,主要研究方向为多媒体技术,虚拟现实技术。唐胜
2、,男,1972年生,助理研究员,主要方向为多媒体技术。曹娟1),2),3)张勇东1),2)李锦涛1),2)唐胜1),2)1)中国科学院计算技术研究所虚拟现实技术实验室,北京1001902)中国科学院计算技术研究所智能信息处理重点实验室,北京1001903)中国科学院研究生院北京100049摘要主题模型(Topicmodels)被广泛应用在信息分类和检索领域。这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(Topic)。针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,我们用图的形式阐述了LatentDirichletAll
3、ocation(LDA)模型中主题产生的过程,提出并证明当主题之间的相似度最小时,模型最优的理论。并基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法。实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。关键词主题模型;主题;LDA;密度AMethodofAdaptivelySelectingBestLDAModelBasedonDensityJuanCao1),2),3)YongdongZhang1),2)JintaoLi1),2)ShengTang1),2)1)VirtualRealityLaboratory,InstituteofCo
4、mputingTechnology,ChineseAcademyofSciences,Beijing,1001902)KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing,1001903)GraduateSchooloftheChineseAcademyofSciences,100049Abstract.Topicmodelshavebeensuccessfullyusedtoinformationclassificati
5、onandretrieval.Thesemodelscancapturewordcorrelationsinacollectionoftextualdocumentswithalow-dimensionalsetofmultinomialdistribution,called“topics”.Itisimportantbutdifficulttoselectanappropriatenumberoftopicsforaspecificdataset.Inthispaper,weproposeatheoremthatthemodelreachesoptimumastheaveragesimi
6、larityamongtopicsreachesminimum,andbasedonthistheorem,weproposeamethodofadaptivelyselectingthebestLDAmodelbasedondensity.ExperimentsshowthattheproposedmethodcanachieveperformancematchingthebestofLDAwithoutmanuallytuningthenumberoftopics.Keywords:topicmodel;topic;LDA;density1引言统计主题模型(StatisticalTop
7、icModels)近年来得到了非常广泛的应用,包括在文本分类,信息检索等领域取得了非常好的应用效果[1][2][3][4][5][7]。给定一个文档集合,主题模型通过参数估计寻找一个低维的多项式分布集合,每个多项式分布称为一个主题(Topic),用来捕获词之间的相关信息。主题模型可以在不需要计算机真正理解自然语言的情况下,提取可以被人理解的,相对稳定的隐含语义结构,为大规模数据集中的文档寻找一个相对短的描述。统计主题模型