欢迎来到天天文库
浏览记录
ID:46291539
大小:72.50 KB
页数:7页
时间:2019-11-22
《[精品]大数据与互联网的舆情管控》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据与互联网的舆情管控大数据与互联网的舆情管控【摘要】介绍了一种基于大数据基础技术和应用技术进行互联网舆情管控的方法。该方法将互联网舆情管控分为大数据收集、舆情发现、信息源定位3个阶段。当有热点事件发生并在互联网上广泛传播的时候,利用互联网舆情管控的基本方法就叮以及时掌握该事件在互联网上的传播情况、判断该事件是否被恶意引导或曲解并找出信息传播的关键节点,为互联网舆情管理单位提供管控依据和有力支撑。【关键词】互联网舆情大数据数据挖掘自然语言处理中图分类号:TP393.4文献标识码:A文章编号:1006-1010(2014)-13-0019-051从“
2、净网”到互联网舆情从“净网”说起:为依法严厉打击利用互联网制作传播淫秽色情信息的行为,全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部决定:自2014年4月中旬至11月,在全国范围内统一开展打击网上淫秽色情信息的“扫黄打非净网2014"专项行动。从内容和舆情管控的角度来分析,“净网”不是一个孤立的行动,它的根本目标是防止互联网业务和互联网工具成为不良信息和违规内容的传播渠道。“净网”行动“净”什么?为了便于讨论,我们将互联网上的信息分为2大类:可信任源内容(TrustedResourceContent,TRC)和用户产生内
3、容(UserGeneratedContent,UGC)。一方血,TRC指由可信任的媒体发布的信息,如人民日报社、新华社等,这类媒体需要具备信息采编、发布的资质,且有非常严格的内容审核制度保证内容的可信、新闻的真实。另一方血,UGC指由互联网用户自写的内容,这些内容可以是文字、图片、音频、视频,并通过论坛、BBS、微博、自制小网站或者其他互联网媒介发布。它们具备一个最显著的特征,即用户自媒体特征。由于这些用户一般没有新闻采编和发布内容的资质,且内容可能未经严格的审核,易造成其内容失真、歪曲,其至可能是淫秽或其他不良信息。“净网”的主要目标的就是保证UG
4、C内容的合法合规。让人又爱又恨的UGC:互联网媒体正在成长为继报纸、广播、电视之后的“第四媒体”除了TRC内容以外,其推动力还包括以UGC形式出现的用户互动。这种互动真止体现了互联网的“互联”、“互通”和“互动”o它一方面促进了互联网的迅猛发展,但另一方面,若恶意用户利用UGC扩散和传播违规内容,将会给社会带来极大的负面影响。UGC和互联网舆情:互联网舆情的组成元素是网民/公众的互联网UGC,它以互联网为载体,以社会事件为核心,是社会事件的言论、观点、态度、情感的集合体,•且有较强影响力和倾向性。由于互联网UGC有着发布随意性、隐蔽性、高传播性、偏差
5、性和易受影响性等特点,互联网舆情并不能等同于社会舆情。但是它代表了很大一部分人群对某一问题、事件的倾向性意见,且这些意见和情绪容易受到影响,甚至引导煽动。互联网舆情分析课题越來越受到重视,研究机构、国家级重要媒体也纷纷成立互联网舆情研究办公室,如人民网舆情监测室、清华舆情研究室等。2大数据基础技术和应用技术维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。IDC报告中指出“大数据技术描述了一种新一代技术和架构,以很经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值”o大数据尚处于行业发展的
6、初期,所以对于大数据是一个数据集还是一个技术集尚有不少的争论。我们认为,它既是一个数据集也是一个技术集,它更是一个场景集。需要从海量非结构化数据中去除噪声获取信息的场景都是大数据的场景;并行计算技术、分布式存储技术、数据挖掘技术等都属于处理海量数据的大数据技术。大数据的基础技术主要指对数据的计算和存储技术,如分布式计算技术(Mapreduce,Hive等),分布式存储技术(IIDFS,IIBase等),这些技术用于对海量数据进行计算、存储以及综合管理。但是大数据的场景各种各样,除了基础技术以外,还需要其他技术对各种不同场景下的数据进行进一步处理,我们
7、称Z为大数据应用技术。在本文讨论的场景中,互联网舆情数据的处理除了需要借用大数据基础技术和平台外,还需要利用适合木场景的大数据应用技术加以处理,如数据挖掘技术、自然语言处理技术、汉语分词技术等。本文不过多的探讨大数据的基础技术,而着重研究大数据的应用技术。3基于大数据的互联网舆情管控互联网舆情管控是一个非常典型的大数据场景。首先,用户在互联网上产生的UGC数据量大;其次,这些数据的种类繁多,且以半结构化数据和非结构化数据为主,包括文字、图片、数字、音频、视频等;笫三,这些数据的价值密度低,需要在海量的信息中去除噪声,找出有用的信息。基于大数据的互联网
8、舆情管控的理想模式包括了数据采集、舆情发现和信息源定位3个步骤,如图1所示。首先,作为大数据场景,需要有海量
此文档下载收益归作者所有