欢迎来到天天文库
浏览记录
ID:20052114
大小:58.62 KB
页数:3页
时间:2018-10-08
《大数据技术与国际舆情研判》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据技术与国际舆情研判国际舆情研判是指对国际舆论场中的舆情进行价值和趋势的一种分析与判断过程,主要由两部分构成:一是对国际舆论场屮舆情进行口常性、持续性的跟踪、收集,形成舆情库,进而提出报告;二是针对具体的国际危机或议题的舆情进行针对性研判,形成报告。前者具有系统性、稳定性和长期性,后者具有临时性、突发性和专题性特征。国际舆情研判是否准确不但影响国际危机管理的水平,而II也影响国家决策的制定与执行,在国际危机管理的过程屮具有非常重要的作用。国际危机公关坚持“决策未出,研判先行”就是对国际舆情研判的生动说明。而在传统意义上,国际舆情研判主要是通过人工
2、浏览、文档精选或案例库比对等方法,不过,这些方法能够奏效的一个前提是数据库的可控性或者数据体量的可计算性。但是,在大数据时代,信息体量的几何指数级增加意味着建立在可控假设的舆情研判方法难以解决大数据舆情状况,因此,如何在大数据时代提升国际舆情的研判质量就成为学界和业界思考的问题。一、大数据时代传统舆情研判的不足20世纪90年代,面对纷繁复杂的国际舆论场,为了保证政策执行的准确性,我国国际舆情研判得到长足发展,当吋采取的主要手段是人海浏览法,即,通过对国际主流报刊和广播进行人工查阅以Y解该国舆情的发展方向,然后撰写报告,如国外动态参考之类。21世纪初,
3、随着信息技术的发展,国际舆情研判手段发展到多文档精选法和模板因子法。如今,基于网络技术发展,乂发展出关键词搜索法、网络实验法和数据库比对法。以上各种方法,在舆情研判的工作中曾经发挥着重要的作用,也取得了一定的成效。但是,新的大数据挖掘技术的发展,以上几种方法在舆情研判上的不足逐渐暴露出来。1.样本代表性不足。传统舆情研判的数据基础思想是样本的随机性采集,但这些样本并不是全样本,而是小样本,小数据量。之所以如此,一方面是受制于统计工具,另一方面是因为随机性统计方法认为,采样分析的精确性随着采样随机性的增加而大幅提高,这种提高跟样本数量关系不大,也就是,
4、样本随机性比样本数量更加重要。然而,祝建华教授在一次讨论屮明确表示,如果抽样的对象过于复杂,比如大数据,那么,人们根本找不到一个最优抽样的标准。一旦随机性出现偏差,分析结果就会和去甚远。2016年,美国总统大选,不但美W和关机构预测失败,而且我国的统计机构也预测认为候选人希拉里会获胜,H木统计机构其至认为希拉里大胜,从而建议首相提前结好希拉里。但是,印度的人工智能系统MoglA却通过对Google、Facebook、Twitter等平台上2000万个数据点分析后认为,特朗普能够当选美国总统,于是我们看到,当特朗普当选后,日本首和不被待见,而印度总理却
5、很受美国总统特朗普欢迎。这一事例说明,小样本已经不能够满足大数据时代的舆情研判,如果还基于小样木提供舆情研判,极易出现失误。2.缺乏包容性。在信息缺乏时代,信息的精确性就意味着研判的精确性。人们不但执迷于获取精确的信息,而且也为如何消除噪音而苦恼。在线性传播模式中,噪音是一个影响传播效果的主要因素,传播学者为此制定出很多降噪的策略,如设备降噪、传播重复、扩大音量等。但是,信息爆炸的时代,噪音与数据并存,人们获得冇用数据的同时,也就意味着噪咅的获得,“我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量
6、甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。”但是,小样本为了精确性而排斥这些数据。1.效率低下。无论是人工浏览法还是文档精选法,它们不但耗费巨大的人力物力,而且在面对危机事件时,也不能立即总结出可行的报告,其效率低下的缺点暴露无遗。危机管理对时间的要求非常高,20世纪90年代,管理者提出24小时的黄金法则,后来针对新环境,又提出5小时原则,如今在社交媒体时代,5小时显然不能适应舆情处理的要求。但不管是5小吋,或者2小吋,传统舆情研判的方法都不能
7、满足这些需求,而利用大数据挖掘技术,却能够在极短的时间内,保质保量地完成这些舆情分析和研判。二、“脏数据”与数据清洗虽然大数据在面对全样木时,比人工浏览法、文档精选法等舆情研判更有优势,比如现在流行的Google搜索和百度搜索,但是,他们并不意味着人数据挖掘技术就一定能够准确预测舆情。因为,在舆情产生的过程屮,异常数据、不一致数据、重复数据、缺失数据等噪音数据和一些因数据结构设计不合理和属性约束不够等产生的“脏数据”,也就是前文提到的包容性数据,都能够影响到舆情研判的精确度。所谓“脏数据”指的是在数据收集阶段,源系统中的数据不存在给定范围或对实际业务
8、毫无意义,或是数据格式非法以及在源系统中存在不规范的编码和含糊的业务逻辑。在国际舆情的收集过程屮,由于语言逻
此文档下载收益归作者所有