欢迎来到天天文库
浏览记录
ID:35181721
大小:6.67 MB
页数:120页
时间:2019-03-21
《基于聚类与lda的新闻评论主题挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号TP391.1学校代码10495UDC681.37密级公开硕士学位论文基于聚类与LDA的新闻评论主题挖掘研究作者姓名:李保国学号:1315093001指导教师:夏火松学科门类:工学专业:管理科学与工程研究方向:信息管理与数据挖掘完成日期:二零一六年六月WuhanTextileUniversityM.E.DissertationNewsReviewTopicMiningbasedonClusteringandLDACandidate:LiBaoguoSupervisor:Prof.XiaHuos
2、ongTime:June2016摘要新闻评论反映民众对新闻事件的观点,挖掘评论主题,对用户、企业、政府都具有很高的情报分析价值。我们经常对新闻及其评论有这些需求,第一:如何用简单的语言提取新闻评论,进行研究。第二,对于一系列新闻,提取新闻的评论主题与比例可以帮助人们了解新闻媒体及普通民众的态度倾向。我们还想获得各个主题随着事态的发展会如何变化,例如何时开始,变强,衰弱,结束或者变异成其他的主题。对于第一个问题。这篇论文提出了基于Python的动态网页爬虫算法,解决了采集动态网页评论的问题。其中,这篇
3、论文使用静态网页信息构造动态链接,根据基于Python的动态网页评论爬虫算法实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。对于第二个需求:这篇论文提出了基于LDA的主题挖掘改进算法,它可以改善原有LDA算法应用在评论数据中的弊端。基于LDA的主题挖掘算法应用到新闻评论这些短文本中时,会出现精度不高,效率降低等现象。而且评论文本矩阵由于维度过高,还会造成程序
4、溢出,速度过慢等问题。所以,改进模型根据LDA对文本顺序不敏感的特点,把相同时间段的评论化为一个文本块。接着,为解决同一文本块的内的相同评论重复率过高的问题,改进模型对各文本块进行简化。最后,改进算法的优良特性有利于管理者和政策制定者利用评论情报信息进行决策。然而,由于基于LDA的算法不便于理解主题,这篇论文提出了基于改进K-均值聚类的主题挖掘算法,它可以有效的抽取评论主题及对应比例,并作主题演化分析。其中,基于K-均值聚类的主题挖掘算法直接应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始
5、点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-均值聚类改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,挖掘新闻评论主题的效果明显。关键词:Python语言;动态网页评论爬虫;改进K均值聚类;L
6、DA改进模型;主体挖掘研究类型:应用研究AbstractNewscommentariesreflectpublicviewsonnewsevents.ExtractingReviewsubjecthasahighvalueintelligenceanalysis.Weoftenhavedemandsfornews.Firstly,Wewantgetnewsdata。Secondly,toaseriesofnews,wewantextracttopicsofnewsandcomments,whichc
7、anhelppeopletounderstandtheattitudestowardthenews.Wealsowanttoknowthetopicandhowitchanges,suchaswhentostart,strong,weak,endormutateintoothertopics.Tosolvethefirstproblem,thispaperpresentsadynamicwebcrawleralgorithmbasedonPythontosolvetheproblemofcaptur
8、ingdynamicreviewspage.Thispaperusesinformationofstaticpagesstructuredynamiclinkanddesignsacrawleralgorithmfordynamicweb.Onthisbasis,thispaperimplementsacommentcollector.Finally,thispapercomparesitwiththegeneralcrawleralgorithm.Itisprove
此文档下载收益归作者所有