网络新闻热点话题检测分析与趋势研究

网络新闻热点话题检测分析与趋势研究

ID:17364451

大小:2.27 MB

页数:57页

时间:2018-08-30

网络新闻热点话题检测分析与趋势研究_第1页
网络新闻热点话题检测分析与趋势研究_第2页
网络新闻热点话题检测分析与趋势研究_第3页
网络新闻热点话题检测分析与趋势研究_第4页
网络新闻热点话题检测分析与趋势研究_第5页
资源描述:

《网络新闻热点话题检测分析与趋势研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、专业硕士学位论文网络新闻热点话题检测分析与趋势研究培养单位:统计学院专业名称:应用统计作者姓名:石正新指导教师:刘强教授HotTopicsDetectionAnalysisandTrendResearchonnetworknewsCandidate:ShiZhengXinSupervisor:Prof.LiuQiangCapitalUniversityofEconomicsandBusiness,Beijing,China摘要随着“互联网+”时代的到来,网络逐渐成为人们获取信息、传播信息的重要渠道,大

2、量网络新闻在丰富人民生活的同时,也蕴藏了大量的价值,比如网络新闻在舆情、股市预测等方面都有着重要应用。但是网络新闻交错纷杂、杂乱无章,人们往往无法获取及时有效的信息,网络新闻话题检测以及趋势研究则能很好地解决的这一问题,网络新闻话题检测主要是为了从海量的网络新闻中检测热点话题,方便人们关注社会焦点。本文在传统的话题检测方法基础上进行了一些改进。首先本文的数据来源于爬取的2018年1月份各大门户网站八个类别下的网络新闻数据,然后本文在话题模型的选取上采用Word2vec与LDA联合建模的方式;其次本文在

3、对文本聚类前采用文本分类的方式进行预处理,从而可以得到不同类别的网络新闻;然后本文设计了一种双层Single-Pass聚类进行话题发现;最后本文对话题的趋势进行了研究,通过话题热度以及话题指数的计算公式获取话题的趋势。根据研究结果表明,本文采用的Word2vec与LDA联合建模方式效果优异,实验表明在与单模型的比较中效果上有明显提升;而本文构建的基于Word2vec与卷积神经网络的分类模型取得了良好的效果,分类准确率达到90%以上,根据此算法可以得到八个类别下的新闻;其次本文设计的双层Single-P

4、ass聚类的聚类效果优异,并且能够处理连续时间的网络新闻,具有较强的灵活性,根据本文算法给出了2018年1月2日以及2018年第一周的各类别热点话题;最后本文提出的热点话题趋势研究的方法在实际的话题案例分析中,与权威的搜索引擎百度指数的对比,发现效果大致相同,侧面印证了本文话题的趋势研究的有效性。所以通过本文的模型可以从海量的网络新闻中检测出热点话题,并对话题趋势进行研究,这对用户、企业还是政府都有较强的应用价值。关键字:话题检测;趋势研究;Word2vec;LDA;双层Single-PassIAbs

5、tractWiththeadventofthe"InternetPlus"era,theInternethasgraduallybecomeanimportantchannelforpeopletoobtaininformationanddisseminateinformation.Whilealargenumberofonlinenewssourcesenrichpeople'slives,theyalsocontainagreatdealofvalue,suchasonlinenewsinthep

6、ublicopinionandstockmarketforecasts.Thereareimportantapplications.However,networknewsisstaggeredanddisorganized,andpeopleoftencannotobtaintimelyandeffectiveinformation.Networknewstopicdetectionandtrendresearchcanwellsolvethisproblem.Networknewstopicdete

7、ctionismainlyusedtodetectfrommassiveamountsofonlinenews.Hottopicstofacilitatepeople'sattentiontosocialissues.Thisarticlemakessomeimprovementsbasedontraditionaltopicdetectionmethods.Firstofall,thedatainthispapercomesfromthecrawlingoftheeightcategoriesofw

8、ebnewsdataofeachmajorportalinJanuary2018.ThenthispaperadoptsthemethodofjointmodelingofWord2vecandLDAintheselectionoftopicmodels;Beforetheclustering,textclassificationisusedtopreprocess,sothatdifferenttypesofnetworknewscanbeobtain

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。