基于LDA模型的主题分析.pdf

基于LDA模型的主题分析.pdf

ID:52439498

大小:379.73 KB

页数:7页

时间:2020-03-27

基于LDA模型的主题分析.pdf_第1页
基于LDA模型的主题分析.pdf_第2页
基于LDA模型的主题分析.pdf_第3页
基于LDA模型的主题分析.pdf_第4页
基于LDA模型的主题分析.pdf_第5页
资源描述:

《基于LDA模型的主题分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第35卷第12期自动化学报Vol.35,No.122009年12月ACTAAUTOMATICASINICADecember,2009基于LDA模型的主题分析121;3石晶范猛李万龙摘要在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latentdirichletallocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类

2、及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.关键词主题分析,LDA模型,文本分割,Gibbs抽样中图分类号TP301TopicAnalysisBasedonLDAModelSHIJing1FANMeng2LIWan-Long1;3AbstractTopicspottingofsegmentsisperformedbasedontextsegmentationandth

3、emaintopicofthewholetextisthengeneralized.Topicsarerepresentedbymeansofwordclusters.LDA(Latentdirichletallocation)isusedtomodelcorporaandtext.Clarityistakenasametricforsimilarityofblocksandsegmentationpointsareidenti¯edbylocalminimum.Thetopicwordsofs

4、egmentsareextractedaccordingtoShannoninforma-tion.Wordswhicharenotdistinctlyintheanalyzedtextcanbeincludedtoexpressthetopicswiththehelpofwordclusteringofbackgroundandtopicwordsassociation.Thesigni¯cationbehindthewordsareattemptedtobediggedout.Experim

5、entstellthattheresultofanalyzingisfarbetterthanthoseofothermethods.Valuablepre-processingisprovidedfortextreasoning.KeywordsTopicanalysis,latentdirichletallocation(LDA)model,textsegmentation,Gibbssampling文本的主题分析旨在确定一个文本的主题结构,即识别所讨论的主题,界定主题的外延,跟踪主题的转换

6、,觉察主题间的关系等,分析结果对于信息提取、文摘自动生成、文本分类等领域都有极为重要的价值.主题分析的程度随着应用对象的不同有所区别,浅层次的分析仅仅确定主题边界(文本[1¡2]分割),或者进而指明不同片段间的关系(是否讨论同一[3]主题);比较复杂的分析能够在识别边界的基础上讨论主题[4]的内容.作为文本推理的预处理,本文研究如何将边界计算及主题表示集中在LDA(Latentdirichletallocation)模型的框架下统一实现.欲利用统计的方法分析文本,首先必须选择合适的模型.文献[4

7、]以不附加任何统计假设的有限混合模型(Fi-nitemixturemodel)代表文本中的词汇分布,直接利用EM(Expectationmaximization)对其进行训练,导致的问题收稿日期2008-07-16收修改稿日期2009-03-25ReceivedJuly16,2008;inrevisedformMarch25,2009长春工业大学博士基金(2008A02)资助SupportedbyChangchunTechnologyUniversityDoctoralProgram(2008A

8、02)1.长春工业大学计算机科学与工程学院长春1300122.长春工业大学科研处长春1300123.吉林大学计算机科学与技术学院长春1300121.CollegeofComputerScienceandEngineering,ChangchunUni-versityofTechnology,Changchun1300122.DepartmentofSci-enceandResearchAdministration,ChangchunUniversityofTech-nology,Changchu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。