基于自然语言处理的自动文摘系统

基于自然语言处理的自动文摘系统

ID:15076524

大小:2.13 MB

页数:67页

时间:2018-08-01

基于自然语言处理的自动文摘系统_第1页
基于自然语言处理的自动文摘系统_第2页
基于自然语言处理的自动文摘系统_第3页
基于自然语言处理的自动文摘系统_第4页
基于自然语言处理的自动文摘系统_第5页
资源描述:

《基于自然语言处理的自动文摘系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学硕士学位论文基于自然语言处理的自动文摘系统姓名:张峰申请学位级别:硕士专业:计算机应用指导教师:杨国纬20060105摘要摘要在本文中,首先介绍了自然语言处理的基础概念体系,给出了自然语言处理的定义及其研究和处理的方法和过程,接着便介绍国内外关于自动文摘系统等方面的研究方向和发展动态,并指出了自动文摘系统研究的某些不足。然后重点说明了文摘和自动文摘系统的基本概念体系,并针对目前几种主要的自动文摘系统形式化模型和方法:基于统计的机械文摘、基于理解的文摘、基于概念依存的文本结构分析方法和信息抽取的文本摘要等

2、模型和方法进行了比较和分析,对它们的优点和缺点进行了讨论,归纳出各自的特点。进而在总结各种不同类型的自动文摘系统的特点的基础上,将基于潜在语义分析和篇章多级依存结构的文摘方法相结合,提出了一种综合型的自动文摘系统的设想。潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高

3、了后续处理的精度。篇章多级依存结构分析(TextMultilevelDependencyStructure,TMDS)是一种基于结构的自动文摘分析方法。如果把各个部分视为节点,并在两个有语义联系的部分之间引一条边,那么我们就得到了~个关联网络。它清楚的表示了文章的整体结构;同时篇章结构比语言表层结构深入了一大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇章结构的自动文章能够避免机械文摘的许多不足,保证文摘质量。本文提出的文摘方法综合利用了两种方法。首先通过对文本进行潜在语义分析,对文本矩阵进行相应的

4、奇异值分解,重构语义矩阵;然后采用基于篇章多级依存结构的文摘分析方法,对重构的语义矩阵表示的文本内容进行深入的分析,抽取重要的句子生成文摘,这样就弥补了潜在语义分析在词法和句法分析上的不足;同时过滤和去除了语义嗓音,缩小了问题的规模。关键词:自然语言处理,自动文摘,潜在语义分析,篇章多级依存结构ABSTRACTIntllisthesis,theauthorfirstintroducesthelatestdevelopmentofAutomaticSmranarizationsvstemindomesticandab

5、road.whichshowsthelackoftheautomaticsummarizationsystemresearch.Thentheauthorintroducessomebasicconceptsaboutautomaticabstractsystem.SecondlNsomebasicconccptsaboutAbstractandautomaticsummarizationsystemareintroduced,andthemainforfnalmodelsandmethodsofsystemare

6、comparedandanalyzed,suchasstatisticsbased,meaningbased,conceptbased.knowledgebasedetc.Weinduce_cheircharacteristicsandPutforwardakindofcomprehensiveautomaticsummarizationsystembasedonlatentsemanticanalysisandtextmultileveldependencystructure.LatentSemanticAnal

7、ysis旺。SA)iSacompletelyautomatictheoryandmethodoftheacquisitionandrepresentationofknowledge,whichextractsthecontextual-usagemeaningofwordsbystatisticalcomputationsappliedtoalargecorpusoftext.LSAissimilartoVectorSpaceMode(vSM),representingtextualmaterialswithspa

8、cevectors.LSAcanadvancetheaccuracyofsubsequentprocessesbyusingammcatedSingularValueDecomposition(sVD)toremovetheilffiuencesofsynonymy.Inthispaper,theauthorsintroducethebasicideas.c

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。