资源描述:
《突发事件案例及其舆情信息爬取、分类及语义检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、突发事件案例及其舆情信息爬取、分类及语义检索研究TheResearchofEmergencyCasewithPublicOpinionCrawling,ClassificationandSemanticRetrieval领域:软件工程作者姓名:刘宇指导教师:王文俊教授企业导师:马志华研究员天津大学软件学院二零一五年十二月摘要当代突发事件的新闻报道和相关研究文章呈爆发式增长。面对海量的突发事件案例和舆情数据,为了挖掘突发事件特征及关联关系,本文提出了突发事件案例及其舆情本体模型,将爬取、分类、检索等工作抽象出
2、模板,针对数据爬取、抽取、分类的可配置需求进行了建模、设计和实现,完成了以下工作:第一,提出了突发事件案例及其舆情本体模型。模型以ABCOntology模型为上位本体,结合搜索引擎的爬取、抽取、分类等步骤,抽象出可配置模板,分别完成了案例及其舆情爬取可配置建模,案例抽取可配置建模,案例分类可配置建模。第二,提出了突发事件案例及其舆情处理与语义检索平台设计。针对突发事件案例及其舆情信息的特点与结构,设计出整体平台框架、信息处理流程与数据结构,并按照模块划分,分别对数据爬取模块、数据抽取模块、数据分类模块、案例
3、入库模块和案例语义检索模块进行流程设计,数据结构设计与功能设计。第三,完成了突发事件案例及其舆情处理与语义检索平台实现,分别通过新华网RSS推送新闻的实例、中国应急分析网新闻专题实例、兰州大学案例库实例,从RSS推送新闻、新闻专题、案例库三个方面介绍平台的数据爬取过程、数据抽取过程、数据分类过程、案例入库过程和语义检索功能。本文构建了突发事件案例及其舆情信息本体模型以及数据爬取、抽取与分类的可配置模板,并完成平台实现。并且通过对不同数据源的平台实现验证了模型的通用性,为突发事件特征及关联关系挖掘提供了有效的
4、平台支撑。关键词:可配置模板,突发事件案例,舆情信息,语义检索IABSTRACTContemporarynewsreportsandrelatedresearcharticlesaboutemergenciesareexplosivegrowth.Facingthemassiveemergencycasesandpublicopinion,inordertoextracteventsattributesandmineeventscorrelation,thispaperpresentsamodelofeme
5、rgencycaseanditspublicopinionwhichabstractclimb,classification,retrievalandotherworktotemplates.Themodel,designandimplementationoftheconfigurablerequirementsofdatacrawling,extractionandclassificationarecarriedout.Thispaperfinishedthefollowingwork.First,thi
6、spaperputsforwardtheemergencycaseandthepublicopinionontologymodel.ThemodelisbasedontheABContologymodelasupperontology,andcombinethedatacrawling,extraction,classificationinverticalsearchenginesandabstracttheconfigurabletemplate,implementstheconfigurablemode
7、lofcaseandpublicopinioncrawl,caseextractionandcaseclassification.Second,thispaperproposeadesignschemeoftheprocessofemergencycasewithpublicopinionandsemanticretrievalplatform.Forthefeatureandstructureofemergencycaseandpublicopinion,wedeviseanoverallplatform
8、frameworkaswellastheplatformresourcetransferanddatastructure.Accordingtothemodulepartition,wemakeaseriesofdesignlikedataflowdesign,datastructuredesignandfunctiondesignfordatacrawlmodule,dataextractionmodule,d