硕士论文-中文自动文摘系统的研究与实现

硕士论文-中文自动文摘系统的研究与实现

ID:34649177

大小:8.16 MB

页数:69页

时间:2019-03-08

硕士论文-中文自动文摘系统的研究与实现_第1页
硕士论文-中文自动文摘系统的研究与实现_第2页
硕士论文-中文自动文摘系统的研究与实现_第3页
硕士论文-中文自动文摘系统的研究与实现_第4页
硕士论文-中文自动文摘系统的研究与实现_第5页
资源描述:

《硕士论文-中文自动文摘系统的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、南京师范大学硕士学位论文中文自动文摘系统的研究与实现姓名:朱荷香申请学位级别:硕士专业:计算机应用技术指导教师:曲维光20080401摘要自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现:‘它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概

2、念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,~篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈T大信息检

3、索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地

4、反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRI,ab_NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。关键词:自动文摘,机械文摘,向量空间模型,词法分析,概念统计,文本结构划分,词义消歧,评测.IVABSTRACTAutomaticsummarizationisallimportantresearchtopicinthenaturallanguageprocessing.Inrec

5、entyears,alongwiththevigorousdevelopmentofInternet,theamountofinformationincr.easessharplyaswellastheliteraturequantityassumesthe.exponentialordertogrow.AsasupplementarymeanswhichsolvestheoverloadproUlemofinformation,automaticsummarization’svaluegetsmoreandmoresufficientembodiment,itcanhelpt

6、oimprovethespeedoftheinformationretrievalandsavethebrowsingtimeofinformation.Automaticsummarizationiscloselyrelativetothesemantics,butthetraditionalstatisticssummarizationextractssentencesthroughtheestablishmentofthevectorspacemodelbasedonstatisticsofwordfrequency.Vectorspacemodel’sbasicassu

7、mptionistheirrelevanceamongtheitems,butinrealtext,becauseofthediversityoflanguage,evenifthesameconceptoftenhasmanydifferentformsofexpression,wordsindivideditemssometimeshavegreatrelevance,nottotallybeindependent.Inaddition,thearticlecontainsallover

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。