基于微博舆情数据的震后有感范围提取研究

基于微博舆情数据的震后有感范围提取研究

ID:28153343

大小:64.11 KB

页数:6页

时间:2018-12-08

基于微博舆情数据的震后有感范围提取研究_第1页
基于微博舆情数据的震后有感范围提取研究_第2页
基于微博舆情数据的震后有感范围提取研究_第3页
基于微博舆情数据的震后有感范围提取研究_第4页
基于微博舆情数据的震后有感范围提取研究_第5页
资源描述:

《基于微博舆情数据的震后有感范围提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于微博舆情数据的震后有感范围提取研究摘要:提出了基于微博舆情信息的震后有感范围快速判定技术框架,构建了微博舆情数据的获取方法和技术流程。根据中国地震烈度表和地震现场工作调查规范,将微博特征词与地震灾情速判指标进行关联匹配,建立微博灾情信息分类指标体系,通过自然邻点空间插值方法将离散分布的微博灾情点转化为连续分布的灾情面,形成震后灾区有感范围的时空变化特征分布图,辅助灾情快速判定。以2014年景谷66级地震为例,进行探索和实践。结果表明:在震后1〜2h内,微博用户活跃度高,信息量大且丰富,对信息充分挖掘有助于对灾情的宏观把握,对救灾决策部署有一定的参考意义,弥补了传统获取技术时效

2、性差、数据量少、覆盖面小等问题。关键词:微博舆情数据;灾情判定;有感范围提取中图分类号:P315941文献标识码:A文章编号:1000-066602-0303-080引言地震发生后,灾情信息的快速获取、处理、分析和研判是各级党委政府、各级抗震救灾指挥部成员单位部署抗震救灾工作,派遣救援力量、调配救灾物资的关键环节,尤其是震后2h的黑箱期内,如何快速判定灾区影响范围灾情时空分布、震害规模、强度等是地震应急灾情快速获取及服务的关键。目前,在震后有感范围确定方面,主要有以下几个途径:一是通过“三网一员”、政府、地震部门应急人员电话、传真,网站灾情填报等方式获取灾情,绘制有感范围图;是根

3、据烈度衰减模型快速计算生成地震影响场来预估灾区范围和强度;三是基于智能手持采集终端获取地震信息,生成有感范围分布图;四是通过网络爬虫在网站上获取灾情信息,通过地址匹配、空间定位解析后插值生成有感范围分布图。在实际地震应急中,上述几种途径在信息获取的时效性、获取效率、信息量、空间范围上存在一定的局限性,短时间内都难以全面客观地反应灾区有感范围的强度和分布,“互联网+”时代的来临为我们在震后灾情快速获取方面提供了一种新的解决思路。根据中国互联网络信息中心发布的《第38次中国互联网络发展状况统计报告》显示,截至2016年6月,中国网民规模达710亿,互联网普及率为488%,手机网民规模

4、达656亿,微博客用户242亿。从统计数字可以看出,随着移动互联网技术的飞速发展,数量众多的个人成为信息传播的重要载体。相对于手机信令、浮动车、微信等数据,以新浪微博为代表的新兴社交平台具有实时性、互动性、强扩散、空间分布广泛性等特点,微博数据可以在互联网上被免费、公开地获取。尤其是在破坏性地震发生后数小时内,大量与地震相关的信息发布并广泛传播,汇集形成海量数据,包括用户账号、发布时间、经纬度坐标、博文、图片、微视频、关注热点等,这些数据中包含有地震灾情信息,如震感、人员伤亡、房屋破坏、生命线工程破坏、地震地质灾害等。通过对这些微博“大数据”进行充分挖掘、分析、表达和应用,能客观

5、地反映灾情时空演变规律,辅助地震灾情快速研判,服务政府应急救援决策。[HJ]本文根据微博舆情数据特点和传播特性,研究如何利用微博舆情数据分时段提取地震有感范围,并以2014年景谷66级地震为例进行应用检验。1研究技术框架当破坏性地震发生后,首先根据地震三要素信息,通过微博API调用、关键字检索、网络爬虫、专业地理抓取等技术手段,实时获取微博用户发布的信息,信息主要来源于新浪、腾讯、网易、人民网等主流网站微博用户,对这些信息进行存储管理,形成结构化的数据库。其次,对微博数据进行解析、去重,提取有效信息,包括微博发布时间、博文内容、图片、空间经纬度坐标等,并对核心博文内容进行中文分词

6、、清洗等挖掘处理,提取与地震灾情相关的特征词,根据相关标准和规则对微博数据与地震烈度判定的描述性信息进行关联匹配,建立微博地震灾情信息分类表。最后,以微博灾情节点为基础进行空间插值,将离散分布的灾情点转化为连续分布的灾情有感范描述灾情时空演变规律,辅助灾情研判。具体研宄技术框架如图1所示。2微博数据获取微博数据获取方式有网络爬虫技术和调用微博官方API接口两种途径,基于网络爬虫技术获取信息的基本流程是通过设定入口URL地址,按照一定的爬行策略将网页内容保存,并提取网页中有效地址作为下一次爬行的入口URL地址,直到爬行完毕。由于地震灾情信息抽取和空间定位要求,该方式信息获取效率不高

7、,空间地理位置还需通过地名规则、地址匹配技术进行解析获取,另外,多次访问有账号屏蔽风险。因此,本文以当前用户基数较大的新浪微博为例,注册认证后获取调用新浪微博的API权限,通过调用相关API,解析服务器返回的JSON数据文档获取微博信息,该方式微博信息获取时效性高,数据格式清晰,便于数据的存储和解析。微博数据获取技术流程如图2所示。[BT]面对海量的微博信息“大数据”,为提高数据挖掘效率和准确率,需对原始数据进行解析、去重,提取微博的发布时间、内容、图片、经纬度坐标等有效信息,并

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。