欢迎来到天天文库
浏览记录
ID:35057554
大小:2.39 MB
页数:52页
时间:2019-03-17
《基于lda模型和密度聚类的新闻话题检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20111459硕士学位论文基于LDA模型和密度聚类的新闻话题检测学位申请人:李琮指导教师:袁方教授学位类别:工学硕士学科专业:计算机应用技术授予单位:河北大学答辩日期:二〇一六年五月ClassifiedIndex:CODE:10075U.D.C:NO:20111459ADissertationfortheDegreeofM.EngineeringTopicDetectionBasedonLDAModelandDensityClusteringCandidate:LiCongS
2、upervisor:Prof.YuanFangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerAppliedTechnologyUniversity:HebeiUniversityDateofOralExamination:May,2016摘要摘要近些年,随着互联网的快速发展和网络终端的多样化,网络新闻报道快速增长,新闻信息的结构变得更加复杂。传统的新闻收集、整理、组织和分析工作很难全面的了解新闻报道之间的联系,无法从全局的角度判断新闻报道的发展方向,话题检测技术应运而生
3、。新闻话题检测的主要任务是从大量新闻中自动检测出潜在的话题,同时话题检测也可以对突发新闻事件进行检测并全面了解事件的发展情况。话题检测对舆情监测、信息安全、商业金融等领域都有重要作用。本文针对新闻数据的话题检测进行研究,主要工作如下:(1)将LDA模型与基于密度的聚类算法相结合。LDA模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理的体现新闻主题特征;基于密度聚类算法能够更有效的挖掘话题中新闻的结构。(2)基于新闻话题的时间延续性,给出了改进的T-OPTICS算法。该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结
4、果的影响;改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性。(3)针对话题检测任务的特点,给出了一种基于OPTICS可达图的自动簇识别方法。该方法以话题是一个核心事件或活动以及与其相关的事件或活动的定义为依据,首先在OPTICS可达图上识别所有凹区间作为活动或事件,然后抽取事件(活动)的核心特征,最后合并核心特征相近的连续事件(活动),得到需要检测的话题集合。该方法克服了现有的簇识别方法参数选择困难的缺点。基于TDT4数据集的实验表明,上述研究工作能够快速有效的发现新闻中的话题。关键词话题检测LDA模型OPTICS簇识别IA
5、bstractAbstractInrecentyears,becauseoftherapiddevelopmentofInternettechnologiesanddiversifiednetworkterminals,thevolumeofnetworknewsgrowsfastandthestructureofnewsbecomesmorecomplex.Itisdifficultfortraditionalmethodsofnewscollection,collationandanalysistodetectthepotentiallink
6、sbetweenthenews,andfurthertodeterminethedevelopmenttrendofthenewsfromaglobalperspective.Totackletheseproblems,topicdetectiontechnologyisthusdevelopedtoautomaticallydetectpotentialtopicsfromlarge-scalenews.Besides,topicdetectioncanalsodetectunexpectedeventsandfindouttheirprogr
7、essesingeneral.Topicdetectionhasbeenwidelyusedinopinionmonitoring,informationsecurity,tradefinanceandotherfields.Inthisthesis,westudytopicdetectionfromlarge-scalenewsdatasets.Themainworkisasfollows:(1)TheproposedmethodcombinesLDAmodelwithadensity-basedclusteringalgorithm.LDAm
8、odelisusedtoreducethedatadimensionbyexpressingthenewsasaprobabilisti
此文档下载收益归作者所有