欢迎来到天天文库
浏览记录
ID:17364451
大小:2.27 MB
页数:57页
时间:2018-08-30
《网络新闻热点话题检测分析与趋势研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、专业硕士学位论文网络新闻热点话题检测分析与趋势研究培养单位:统计学院专业名称:应用统计作者姓名:石正新指导教师:刘强教授HotTopicsDetectionAnalysisandTrendResearchonnetworknewsCandidate:ShiZhengXinSupervisor:Prof.LiuQiangCapitalUniversityofEconomicsandBusiness,Beijing,China摘要随着“互联网+”时代的到来,网络逐渐成为人们获取信息、传播信息的重要渠道,大
2、量网络新闻在丰富人民生活的同时,也蕴藏了大量的价值,比如网络新闻在舆情、股市预测等方面都有着重要应用。但是网络新闻交错纷杂、杂乱无章,人们往往无法获取及时有效的信息,网络新闻话题检测以及趋势研究则能很好地解决的这一问题,网络新闻话题检测主要是为了从海量的网络新闻中检测热点话题,方便人们关注社会焦点。本文在传统的话题检测方法基础上进行了一些改进。首先本文的数据来源于爬取的2018年1月份各大门户网站八个类别下的网络新闻数据,然后本文在话题模型的选取上采用Word2vec与LDA联合建模的方式;其次本文在
3、对文本聚类前采用文本分类的方式进行预处理,从而可以得到不同类别的网络新闻;然后本文设计了一种双层Single-Pass聚类进行话题发现;最后本文对话题的趋势进行了研究,通过话题热度以及话题指数的计算公式获取话题的趋势。根据研究结果表明,本文采用的Word2vec与LDA联合建模方式效果优异,实验表明在与单模型的比较中效果上有明显提升;而本文构建的基于Word2vec与卷积神经网络的分类模型取得了良好的效果,分类准确率达到90%以上,根据此算法可以得到八个类别下的新闻;其次本文设计的双层Single-P
4、ass聚类的聚类效果优异,并且能够处理连续时间的网络新闻,具有较强的灵活性,根据本文算法给出了2018年1月2日以及2018年第一周的各类别热点话题;最后本文提出的热点话题趋势研究的方法在实际的话题案例分析中,与权威的搜索引擎百度指数的对比,发现效果大致相同,侧面印证了本文话题的趋势研究的有效性。所以通过本文的模型可以从海量的网络新闻中检测出热点话题,并对话题趋势进行研究,这对用户、企业还是政府都有较强的应用价值。关键字:话题检测;趋势研究;Word2vec;LDA;双层Single-PassIAbs
5、tractWiththeadventofthe"InternetPlus"era,theInternethasgraduallybecomeanimportantchannelforpeopletoobtaininformationanddisseminateinformation.Whilealargenumberofonlinenewssourcesenrichpeople'slives,theyalsocontainagreatdealofvalue,suchasonlinenewsinthep
6、ublicopinionandstockmarketforecasts.Thereareimportantapplications.However,networknewsisstaggeredanddisorganized,andpeopleoftencannotobtaintimelyandeffectiveinformation.Networknewstopicdetectionandtrendresearchcanwellsolvethisproblem.Networknewstopicdete
7、ctionismainlyusedtodetectfrommassiveamountsofonlinenews.Hottopicstofacilitatepeople'sattentiontosocialissues.Thisarticlemakessomeimprovementsbasedontraditionaltopicdetectionmethods.Firstofall,thedatainthispapercomesfromthecrawlingoftheeightcategoriesofw
8、ebnewsdataofeachmajorportalinJanuary2018.ThenthispaperadoptsthemethodofjointmodelingofWord2vecandLDAintheselectionoftopicmodels;Beforetheclustering,textclassificationisusedtopreprocess,sothatdifferenttypesofnetworknewscanbeobtain
此文档下载收益归作者所有