欢迎来到天天文库
浏览记录
ID:35095186
大小:3.66 MB
页数:49页
时间:2019-03-17
《网络舆情资讯系统中的自动文本摘要技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、鎌擦.e:苗*方層.j.謂尘.斯;幽□;瓣-難.;則1#%譯^|讓麵體^^6%^s:蘇編證特5.s;|妻4,瞧f畔.p.14?,u^#.u;a蠢%皆^媒’MI戀藝uSn補IaMSFm姻.識卸wa^究栽-巧^."B‘-:^‘-懸导宗1^S:成觀W瓦'I:着辩斯止化、:^..S^ii>fS^iS為P^I:^,漏^S譯顏>学位论文独创性声明本论文是我个人在导师指导下进行的研巧工作及取得的研巧成果。论文中除了特别加W标注和致谢的地方外,不包含其他人或其它机构已经发表或
2、撰写过的硏巧成果。其他同志对本研究的启发和所做的贡献巧己在论文中作了明确的声明并表示了谢意。J作者签名:7守日期:玄心主之学位论文使用授权声明本人完全了解南京财经大学有关保留、使用学位论文的规定,即;学校有权保留送交论文的复印件;学校可抖公布论文的全部或部,允许论义被查阅和借阅^。保密的论文在解密后遵分内容,可^^采用影印、缩印或其它复制手段保存论文守此规定。含..3巧作者签名;下奇愚导师签名日期;AUTOMATICSUMMARIZAITONTECHNOLOGYRESEARCHI
3、NMONITORINGINFORMATIONSYSTEMADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofEngineeringBYChenChenSupervisedbyDr.WuZhiangInstituteofInformationEngineeringNanjingUniversityofFinanceandEconomicsNovember2015摘要舆情资讯系统定向爬取互联
4、网上的新闻、论坛、微博等文本数据,过滤、排序、并形成自动文摘提供给决策层用户,提升其信息获取效率,并满足其对舆情资讯的搜集、监控及预警等需求。自动文本摘要是舆情资讯系统中的核心技术之一,它试图从文本中提取出最重要的部分,形成简明扼要的文摘。由于爬虫获取的资讯包含大量垃圾及无关文本,将对舆情系统中包括自动文本摘要在内的后续文本处理构成极大的负面影响。为此,面向舆情资讯系统的实际需求,本文聚焦于舆情系统中垃圾文本过滤方法以及节录式摘要自动生成算法的研究。首先,针对舆情资讯系统原始数据包含大量垃圾文本的问题,我们通过分析垃
5、圾文本产生的原因,对垃圾文本进行分类,综合运用黑/白名单过滤方法、贝叶斯分类器过滤方法,提出一种多层垃圾文本过滤方法,降低舆情系统中文本处理的错误率,并基于不同数据源中的相似文本数量,进行资讯内容的重要性排序。其次,节录式摘要的本质是从原始文本中提取一定数量的重要句子,因此句排序是节录式自动摘要的算法。一种直观的无监督方法是通过构建词或句关联网络,再使用PageRank计算词或句的排序分值,最终获得句的重要性排序分值。本文将词和句重要性排序相融合,考虑词与句之间的相互影响,提出词句协同排序的自动摘要算法,在句关联网络
6、上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定。在句排序结果基础上,提出基于冗余度的句选择方法,进一步提升自动摘要质量。算法在10篇中文文本和1067篇英文文本上的的实验表明,相比于只构建句网络的算法和DUC2002的14个参考结果,可以有效的提高自动生成摘要的召回率和ROUGE值。最后,我们介绍所提出的多层垃圾文本过滤方法、及词句协同排序的自动摘要算法在实际舆情系统中的应用,具体包括江苏电力舆情热点情报系统和中船重工714所舆情监控系统。这有力证实了本文研究所具有的实用价值。关键词:文本处理
7、;自动摘要;舆情系统;词句协同排序IVABSTRACTTheOnlinePublicOpinionSystem(OPOS)aimstocrawlonlinetextdatafromnews,BBSandmicro-blogs.Byfiltering,sortingthesecrawleddataandautomaticallygeneratingsummaries,OPOScanhelpdecisionmakerstoimprovetheefficiencyofinformationretrievalandalsot
8、oprovidethefunctionsincludinginformationcollectionandmonitoringandnegativeinformationalarming.AutomaticsummarizationisoneofthekeytechnologiesinsideOPOS,whichcouldextractthem
此文档下载收益归作者所有