基于篇章多级依存结构的自动文摘研究

基于篇章多级依存结构的自动文摘研究

ID:34102405

大小:444.20 KB

页数:10页

时间:2019-03-03

基于篇章多级依存结构的自动文摘研究_第1页
基于篇章多级依存结构的自动文摘研究_第2页
基于篇章多级依存结构的自动文摘研究_第3页
基于篇章多级依存结构的自动文摘研究_第4页
基于篇章多级依存结构的自动文摘研究_第5页
资源描述:

《基于篇章多级依存结构的自动文摘研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第36卷第4期Vol136,No141999年4月JOURNALOFCOMPUTERRESEARCH&DEVELOPMENTApr.1999基于篇章多级依存结构的自动文摘研究刘挺王开铸(哈尔滨工业大学计算机科学与工程系哈尔滨150001)摘要自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从而提高信息检索、传播的效率.文中提出了一种基于篇章多级依存结构的自动文摘方法,这种方法既克服了机械文摘的表层性,又克服了理

2、解文摘的领域局限性.文中给出了篇章多级依存结构的形式化描述,证明了篇章多级依存结构具有非常适合于自动文摘的优点,给出了如何识别、化简篇章结构,如何从压缩了的篇章结构中生成摘要的方法.实验结果达到了预期的效果,验证了该方法的可行性,优越性.关键词自然语言处理,自动文摘,篇章结构中图法分类号TP391RESEARCHONAUTOMATICABSTRACTINGBASEDONTEXTMULTILEVELDEPENDENCYSTRUCTURELIUTingandWANGKai2Zhu(DepartmentofComputerSc

3、ienceandEngineering,HarbinInstituteofTechnology,Harbin150001)AbstractAutomaticabstractingisanimportantdirectionintheareaofnaturallanguageprocess2ing.Thepurposeofthistechniqueistoexplorethemechanismofacquiringandabstractinginfor2mationfromnaturallanguagetexts,andt

4、hentheprogramswhichcanautomaticallywriteab2stractswillimprovetheefficiencyofinformationretrievalandspread.Anewabstractingmethodbasedontextmultileveldependencystructureispresentedinthepaper.Thenewmethodisnei2thersuperficialasthemechanicmethod,norlimitedastheunders

5、tandingmethod.Theformaldescriptionofthetextmultileveldependencystructureisgivenanditisprovedthatthetextmul2tileveldependencystructureisverysuitableforautomaticabstracting.Alsopresentedarethemethodsoftextstructuresrecognition,reduction,andabstractgenerationfromthe

6、compressedstructure.Theexperimentsshowtheexpectedresultsobtained,andthefeasibilityandadvantageofthenewabstractingmethodisvalidated.Keywordsnaturallanguageprocessing,automaticabstracting,textstructure1引言所谓自动文摘就是利用计算机自动地从原始文献中提取文摘.文摘是准确全面地反映某一文献中心内容的简洁连贯的短文.原稿收到日期:

7、1998202209;修改稿收到日期:1998212207.本课题得到国家“八六三”高技术计划资助(项目编号863230620421124).刘挺,男,1972年2月生,博士,主要从事中文自动文摘、中文自动校对、机器翻译等方面的研究.王开铸,男,1932年4月生,教授,长期从事自然语言理解、中文信息处理的研究.计算机研究与发展480计算机研究与发展1999年以往的自动文摘技术主要有机械文摘和理解文摘两种.机械文摘能够适用于非受限域,这符合当前自然语言处理技术面向真实语料、面向实用化的总趋势,但是由于它局限于对文本表层结构

8、的分析,所以经过近40年的发展已接近技术极限,文摘质量很难再有质的飞跃.理解文摘牺牲领域宽度,换取了理解深度,它作[1]为理论探索的价值很高,但实用性较低,在可预见的未来中前景暗淡.为了适应处理大规模真实语料的需要,自动文摘应立足面向非受限域,不断提高文摘质量.篇章结构属于语言学范畴,不触及领域知识,因而基于篇章结构

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。