基于lda模型和密度聚类的新闻话题检测

基于lda模型和密度聚类的新闻话题检测

ID:35057554

大小:2.39 MB

页数:52页

时间:2019-03-17

基于lda模型和密度聚类的新闻话题检测_第1页
基于lda模型和密度聚类的新闻话题检测_第2页
基于lda模型和密度聚类的新闻话题检测_第3页
基于lda模型和密度聚类的新闻话题检测_第4页
基于lda模型和密度聚类的新闻话题检测_第5页
资源描述:

《基于lda模型和密度聚类的新闻话题检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20111459硕士学位论文基于LDA模型和密度聚类的新闻话题检测学位申请人:李琮指导教师:袁方教授学位类别:工学硕士学科专业:计算机应用技术授予单位:河北大学答辩日期:二〇一六年五月ClassifiedIndex:CODE:10075U.D.C:NO:20111459ADissertationfortheDegreeofM.EngineeringTopicDetectionBasedonLDAModelandDensityClusteringCandidate:LiCongS

2、upervisor:Prof.YuanFangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerAppliedTechnologyUniversity:HebeiUniversityDateofOralExamination:May,2016摘要摘要近些年,随着互联网的快速发展和网络终端的多样化,网络新闻报道快速增长,新闻信息的结构变得更加复杂。传统的新闻收集、整理、组织和分析工作很难全面的了解新闻报道之间的联系,无法从全局的角度判断新闻报道的发展方向,话题检测技术应运而生

3、。新闻话题检测的主要任务是从大量新闻中自动检测出潜在的话题,同时话题检测也可以对突发新闻事件进行检测并全面了解事件的发展情况。话题检测对舆情监测、信息安全、商业金融等领域都有重要作用。本文针对新闻数据的话题检测进行研究,主要工作如下:(1)将LDA模型与基于密度的聚类算法相结合。LDA模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理的体现新闻主题特征;基于密度聚类算法能够更有效的挖掘话题中新闻的结构。(2)基于新闻话题的时间延续性,给出了改进的T-OPTICS算法。该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结

4、果的影响;改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性。(3)针对话题检测任务的特点,给出了一种基于OPTICS可达图的自动簇识别方法。该方法以话题是一个核心事件或活动以及与其相关的事件或活动的定义为依据,首先在OPTICS可达图上识别所有凹区间作为活动或事件,然后抽取事件(活动)的核心特征,最后合并核心特征相近的连续事件(活动),得到需要检测的话题集合。该方法克服了现有的簇识别方法参数选择困难的缺点。基于TDT4数据集的实验表明,上述研究工作能够快速有效的发现新闻中的话题。关键词话题检测LDA模型OPTICS簇识别IA

5、bstractAbstractInrecentyears,becauseoftherapiddevelopmentofInternettechnologiesanddiversifiednetworkterminals,thevolumeofnetworknewsgrowsfastandthestructureofnewsbecomesmorecomplex.Itisdifficultfortraditionalmethodsofnewscollection,collationandanalysistodetectthepotentiallink

6、sbetweenthenews,andfurthertodeterminethedevelopmenttrendofthenewsfromaglobalperspective.Totackletheseproblems,topicdetectiontechnologyisthusdevelopedtoautomaticallydetectpotentialtopicsfromlarge-scalenews.Besides,topicdetectioncanalsodetectunexpectedeventsandfindouttheirprogr

7、essesingeneral.Topicdetectionhasbeenwidelyusedinopinionmonitoring,informationsecurity,tradefinanceandotherfields.Inthisthesis,westudytopicdetectionfromlarge-scalenewsdatasets.Themainworkisasfollows:(1)TheproposedmethodcombinesLDAmodelwithadensity-basedclusteringalgorithm.LDAm

8、odelisusedtoreducethedatadimensionbyexpressingthenewsasaprobabilisti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。