欢迎来到天天文库
浏览记录
ID:27329337
大小:61.55 KB
页数:5页
时间:2018-12-02
《我国网络舆情热点话题发现研究综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、我国网络舆情热点话题发现研究综述〔摘要)随着互联网的快速发展,网络舆情对社会的影响不容忽视。若能够及时从海量数据中发现热点话题,追踪热点话题演变以及预测话题的倾向,对于帮助相关部门及时有效地对其引导和控制具有较大意义。本文通过对我国网络舆情热点话题发现的相关文献进行收集、整理及分析,归纳其中的主要研究思想和方法,同时发现存在的不足,并提出进一步的展望,以期对后来研究者提供参考。〔关键词)网络舆情;热点话题发现;发现模型•,综述DOI:10.3969/j.issn.l008-0821.2017.03.02
2、9〔中图分类号)G2062〔文献标识码〕A〔文章编号)1008-082103-0165-07〔Abstract)WiththerapiddevelopmentoftheInternet,theimpactofnetworkpublicopiniononsocietycannotbeignored.Ifwecantimelyfindthehottopic,tracktheevolutionofhottopicsandpredictthetendencyofhottopics,itwillbeofgreat
3、significancetohelptherelevantdepartmentsguideandcontrolthedevelopmentofnetworkpublicopinion.ThepaperstudiedandreviewedtherelatedliteraturesofthehotspottopicdetectionofnetworkpublicopinioninChina,analyzedandsummarizedthemainideology,keytechnologyandexisti
4、ngproblems,besides,gavetheworkingdirectionsofnextsteps.〔Keywords)networkpublicopinion;hotspottopicdetection;detectionmodels;review随着互联网的快速发展,网络信息交互与传播迅速且敏捷,网络中重要的信息常淹没在海量数据中,因此如何有效地从不断涌现的海量非结构化数据中发现热点话题、追踪热点话题演变以及预测话题的发展倾向,为相关单位部门及时提供有效网络舆情信息、舆情监控和竞争情报具有
5、较大意本文在文命I调研的基础上,对我国网络舆情热点话题发现的相关文献进行统计分析和回顾整理。然后从数据采集、文本处理以及热点话题发现模型等方面对现有研究进行整理归纳,意在发现网络舆情热点话题发现中有待解决的难点,以期为未来深入研究奠定基础,最后分析总结网络舆情热点话题发现研究中存在的问题与不足,并指出下一步的展望方向。1文献统计及分类为了充分掌握我国网络舆情热点话题发现研究的现况,截至2016年6月对中国学术期刊网CNKI、万方学位论文期刊网以及维普等数据库进行检索搜集,采用“微博”、“舆情”、“网络”
6、、“论坛”与“热点话题发现”关键字组合作为检索条件进行模糊搜索,检索2005-2016年期间的相关文献。检索命中135条,其中期刊论文64篇,学位论文66篇,会议论文5篇。从图1可以看出,从2007-2014年,网络舆情热点话题发现研究的相关文献逐年增多,2014年相关文献数量达到高峰,近两年有所减少。随着互联网的迅速壮大,网名规模的持续扩大,网络舆情事件的不断爆发,相关部门对网络舆情的监控越来越加大重视力度,并且随着相关研究不断深入,学术成果不断呈现。2我国网络舆情热点话题发现分析21热点话题发现研宄
7、路线热点话题指的是在某个时间段内人们比较关注的话题,涉及民生、政治、经济以及文化等方面。网络舆情热点话题发现过程一般遵循数据采集、数据处理以及话题识别3个大步骤,具体流程如图2所示。22热点话题数据采集作为网络舆情热点话题发现的前提,数据采集是网络舆情热点话题发现的重要一部分,主要通过数据采集工具,对目标站点的数据进行监测和数据采集。目前数据源主要来自微博、新闻网站、论坛以及相关网页等。从数据采集方式上,目前主要是采用网络爬虫技术从互联网中抓取下来。从网络爬虫的功能和结构上分类,可分为通用类型的网络爬虫
8、、专用型的网络爬虫以及增量型网络爬虫[1]。关于网页信息抽取技术,大体上分为基于DOM树的抽取方法、基于统计的抽取方法以及基于模板的抽取方法。孙胜平提出基于时间判断的广度优先网页采集技术,在网页采集流程中添加时间分析器来判断页面内容的时效性,从而决定是否对该页面进行广度采集,避免了采集无用信息,提高了采集效率和覆盖率[2]。罗磊针对微博信息在内部传播时易于扩散至其他新媒体,提出基于改进的Shark-Search的主题扩散跟踪方法,通过主题爬
此文档下载收益归作者所有