中文自动摘要系统的研究和实现

中文自动摘要系统的研究和实现

ID:32137764

大小:1.57 MB

页数:61页

时间:2019-01-31

中文自动摘要系统的研究和实现_第1页
中文自动摘要系统的研究和实现_第2页
中文自动摘要系统的研究和实现_第3页
中文自动摘要系统的研究和实现_第4页
中文自动摘要系统的研究和实现_第5页
资源描述:

《中文自动摘要系统的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着信息技术的发展,尤其是因特网和大规模存储介质的普及,形成了信息的汪洋大海。因此,人们迫切需要寻找一条能够快速、准确获得所需信息的途径,随之出现了多种文本处理技术,包括信息检索、文本分类、文本摘要等。其中文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,因此,机器自动文摘就成为一个非常重要的研究课题。自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。传统的自动摘要提取方法基于词频统计提取摘要旬,对文本不进行语义分析,导致摘要质量不高,而且它所产生的

2、文摘往往很难覆盖所有主题,常常出现主题遗漏等问题。因此,针对不同题材文本具有不同的潜在主题结构这一现象,如何自适应地发现不同文本潜在的主题将会对现有文摘方法的摘要效果产生积极的影响。为了解决上述问题,本文运用统计学的方法,提出了一种基于HowNet与白适应聚类的中文自动文摘方法.研究工作主要包括以下几个方面:①提出了基于HowNet获得词语概念的方法;、②用概念频率统计代替传统的词形频率统计,来建立概念向量空间模型;③基于自适应段落聚类的文本潜在主题的自动发现。为了对系统进行客观性评测,本文运用外部评价方法即通过计

3、算两种不同文摘方法(本文提出的方法和传统的基于词频的选取全文最大权值句子的自动文摘方法)在不同压缩率下对文本分类准确率的影响来评测文摘结果,还使用了文本主题划分正确率来评测文摘结果。试验结果证明本文提出的方法优于传统的基于词频的选取全文最大权值句子的自动文摘方法。关键字:自动文摘,概念向量空间模型;知网;主题发现;聚类ABSTRACTAlongwiththedevelopmentofinformationtechnology,especiallythepopularizationofInternetandlarge

4、scalestoragemedium,theboundlessoceanoftheinformationhavebeenformed.ThetraditionalprocessingandmanagementtechniquesOnteXtdatacannotsaris母thevariousdemandsofusersanyIongeLIndemandofanefficientapproachforsearchingtheusefulinformation,researchandapplicationofautom

5、aticsummarizationhaverevivedtheseyears.SuchproblemCanbereducedbyteXtsummarizationtechnology,butitisatime·consumingtaskforhumanprofessionaltoconductthesummarizationprocessing.DuetothelargevolumeofinformationavailableonlineinleaItime.theresearchofautomaticsummar

6、izationbecomesverycritical.Ingeneral,automaticsummarizationisdefinedastheprocessthattheabswactofadocumentisgenemtedautomaticallybyutilizingcomputer,alsoitisviewedasoneofNLU(NaturalLanguageUnderstanding)’Simportantapplications.Mostofthepreviousautomaticabstract

7、methodsarebasedonwordcounting,whichmissesdeepsemanticanalysisoftexts,SOthegeneratedabslractisunsatisfyingandthesemethodsdonottakethedocument。SthematicslTuctoreintoaccount,thegeneratedsummariesusingthesemethodswillcoveronlythosemainthemeswhileneglectingtheother

8、s.Inordertoovercomingthedisadvantage,thispaperwillputforwardanewautomaticabstractmethodbasedonHowNetandadaptiveclusteringalgorithm.ThemainworksareinwoducedasfoIIows:I.Thispaperwill

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。