网络舆情资讯系统中的自动文本摘要技术研究

网络舆情资讯系统中的自动文本摘要技术研究

ID:35095186

大小:3.66 MB

页数:49页

时间:2019-03-17

网络舆情资讯系统中的自动文本摘要技术研究_第1页
网络舆情资讯系统中的自动文本摘要技术研究_第2页
网络舆情资讯系统中的自动文本摘要技术研究_第3页
网络舆情资讯系统中的自动文本摘要技术研究_第4页
网络舆情资讯系统中的自动文本摘要技术研究_第5页
资源描述:

《网络舆情资讯系统中的自动文本摘要技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、鎌擦.e:苗*方層.j.謂尘.斯;幽□;瓣-難.;則1#%譯^|讓麵體^^6%^s:蘇編證特5.s;|妻4,瞧f畔.p.14?,u^#.u;a蠢%皆^媒’MI戀藝uSn補IaMSFm姻.識卸wa^究栽-巧^."B‘-:^‘-懸导宗1^S:成觀W瓦'I:着辩斯止化、:^..S^ii>fS^iS為P^I:^,漏^S譯顏>学位论文独创性声明本论文是我个人在导师指导下进行的研巧工作及取得的研巧成果。论文中除了特别加W标注和致谢的地方外,不包含其他人或其它机构已经发表或

2、撰写过的硏巧成果。其他同志对本研究的启发和所做的贡献巧己在论文中作了明确的声明并表示了谢意。J作者签名:7守日期:玄心主之学位论文使用授权声明本人完全了解南京财经大学有关保留、使用学位论文的规定,即;学校有权保留送交论文的复印件;学校可抖公布论文的全部或部,允许论义被查阅和借阅^。保密的论文在解密后遵分内容,可^^采用影印、缩印或其它复制手段保存论文守此规定。含..3巧作者签名;下奇愚导师签名日期;AUTOMATICSUMMARIZAITONTECHNOLOGYRESEARCHI

3、NMONITORINGINFORMATIONSYSTEMADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofEngineeringBYChenChenSupervisedbyDr.WuZhiangInstituteofInformationEngineeringNanjingUniversityofFinanceandEconomicsNovember2015摘要舆情资讯系统定向爬取互联

4、网上的新闻、论坛、微博等文本数据,过滤、排序、并形成自动文摘提供给决策层用户,提升其信息获取效率,并满足其对舆情资讯的搜集、监控及预警等需求。自动文本摘要是舆情资讯系统中的核心技术之一,它试图从文本中提取出最重要的部分,形成简明扼要的文摘。由于爬虫获取的资讯包含大量垃圾及无关文本,将对舆情系统中包括自动文本摘要在内的后续文本处理构成极大的负面影响。为此,面向舆情资讯系统的实际需求,本文聚焦于舆情系统中垃圾文本过滤方法以及节录式摘要自动生成算法的研究。首先,针对舆情资讯系统原始数据包含大量垃圾文本的问题,我们通过分析垃

5、圾文本产生的原因,对垃圾文本进行分类,综合运用黑/白名单过滤方法、贝叶斯分类器过滤方法,提出一种多层垃圾文本过滤方法,降低舆情系统中文本处理的错误率,并基于不同数据源中的相似文本数量,进行资讯内容的重要性排序。其次,节录式摘要的本质是从原始文本中提取一定数量的重要句子,因此句排序是节录式自动摘要的算法。一种直观的无监督方法是通过构建词或句关联网络,再使用PageRank计算词或句的排序分值,最终获得句的重要性排序分值。本文将词和句重要性排序相融合,考虑词与句之间的相互影响,提出词句协同排序的自动摘要算法,在句关联网络

6、上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定。在句排序结果基础上,提出基于冗余度的句选择方法,进一步提升自动摘要质量。算法在10篇中文文本和1067篇英文文本上的的实验表明,相比于只构建句网络的算法和DUC2002的14个参考结果,可以有效的提高自动生成摘要的召回率和ROUGE值。最后,我们介绍所提出的多层垃圾文本过滤方法、及词句协同排序的自动摘要算法在实际舆情系统中的应用,具体包括江苏电力舆情热点情报系统和中船重工714所舆情监控系统。这有力证实了本文研究所具有的实用价值。关键词:文本处理

7、;自动摘要;舆情系统;词句协同排序IVABSTRACTTheOnlinePublicOpinionSystem(OPOS)aimstocrawlonlinetextdatafromnews,BBSandmicro-blogs.Byfiltering,sortingthesecrawleddataandautomaticallygeneratingsummaries,OPOScanhelpdecisionmakerstoimprovetheefficiencyofinformationretrievalandalsot

8、oprovidethefunctionsincludinginformationcollectionandmonitoringandnegativeinformationalarming.AutomaticsummarizationisoneofthekeytechnologiesinsideOPOS,whichcouldextractthem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。