基于新浪微博的冰雹实况信息提取方法研究

基于新浪微博的冰雹实况信息提取方法研究

ID:35065841

大小:4.14 MB

页数:58页

时间:2019-03-17

基于新浪微博的冰雹实况信息提取方法研究_第1页
基于新浪微博的冰雹实况信息提取方法研究_第2页
基于新浪微博的冰雹实况信息提取方法研究_第3页
基于新浪微博的冰雹实况信息提取方法研究_第4页
基于新浪微博的冰雹实况信息提取方法研究_第5页
资源描述:

《基于新浪微博的冰雹实况信息提取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于新浪微博的冰雹实况信息提取方法研究ResearchofhailinformationextractionbasedonSinaWeibo学科专业:控制工程研究生:王贺颖指导教师:王萍教授企业导师:贾惠珍高工天津大学电气与自动化工程学院二零一五年十二月摘要冰雹作为一种强破坏性天气,给人们带来巨大的创害,所以冰雹的研究关系重大。目前已有冰雹识别预测的研究,但预测结果的准确与否需要实际冰雹发生事件来验证。但是传统的这实际的冰雹实况信息都是单纯的依靠专门的气象人员,而这种方法存在时间和地域的局限性。为更加方便快捷地搜集冰雹实况信息,我们将目光转移到现代互联网。其中,新浪微博时全国用户使

2、用量最大、活跃度最高的微博平台。加之作为一种罕见极端天气,人们倾向于在微博上发表冰雹天气的相关信息,于是我们选择从新浪微博搜集所需信息。目前有许多关于新浪微博数据采集的方法,总结来看这些方法有:基于第三方软件或者第三方微博数据集的方法、基于新浪公开API的方法和网络爬虫抓取的方法。鉴于本课题需要用到新浪微博的高级搜索接口,而新浪又无该接口的公开获取途径,最后采用网络爬虫技术抓取设定搜索条件的页面,进而抓取含有“冰雹”这一关键字的微博数据。采集到的微博数据并非都是描述冰雹发生信息的数据,根据观察,一部分数据是描述冰雹发生事件,一部分是天气预报信息可能发生冰雹天气,其他则是不含有冰雹发

3、生事件的数据,为从这些数据中获得冰雹实际放生的数据,为将实际含有冰雹实况的数据识别出来,本文采用文本分类技术。文本分类之前采用人工标注的方法构建了三类数据的样本空间。其中文本分类的关键在于文本特征的提取,本文对目前文本特征主要的几种方法进行了说明并在其基础上进行调整,最后将各种方法综合起来使用,通过实验验证了综合使用的结果比使用单一方法更好。之后对传统单纯的词语特征扩展,将词组也作为文本分类的特征。本文采用贝叶斯,K近邻,和支持向量机三种分类器,给出了基于3分类器的组合分类方案。测试结果表明,本文方法能够将隐含在新浪微博中的降雹事件的89.5%提取出来,误识信息低于13.4%。最后

4、利用基于规则的模板匹配法对识别出包含冰雹事件的微博文本进行基于句子级的冰雹发生时间、地点、大小信息的提取。关键词:新浪微博;冰雹实况;特征提取;文本分类;文本要素识别;网络爬虫ABSTRACTAsastrongdestructiveweather,hailhasbroughtgreatdamagetopeople,soitisnecessarytodotheresearchofhail.Thereissomehailidentificationandpredictionresearch.However,thepredictionresultsneedactualHailEvents

5、toverify.Traditionmethodtocollectandrecordthehaileventreliesonthespecialmeteorologicalpersonnel,whichhasthelimitationoftimeandregion.Togetthedatamoreconvenientandquickweturnourattentionfromthetraditionmethodtotheinternet.OntheinternetSinaMicro-blogthelargestonlineMicro-blogplatformandhavingthe

6、mostactiveusersofthecountry.Inadditionasarareextremeweather,peopletendtopublishtherelevantinformationonline,sowechooseSinaMicro-blogtogetwhatwewant.TherearesomedataacquisitionmethodsofSinaMicro-blog.Thefirstmethodisbasedonthethirdsoftware,anotherisbasedontheSinaAPIinterfaceandtheotherisbasedon

7、webcrawler.AstheadvancedsearchinterfaceofSinaMicro-blogisneeded,andSinahasnopublicaccesstotheinterface,thenthewebcrawlertechnologyisadoptedtogetthetextcontaining“hail”.HowevernotallMicro-blogtextscontaining“hail”hailcontaintheHailEvents

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。