中文跨文档指代消解的研究和实现

中文跨文档指代消解的研究和实现

ID:32159601

大小:10.45 MB

页数:59页

时间:2019-02-01

中文跨文档指代消解的研究和实现_第1页
中文跨文档指代消解的研究和实现_第2页
中文跨文档指代消解的研究和实现_第3页
中文跨文档指代消解的研究和实现_第4页
中文跨文档指代消解的研究和实现_第5页
资源描述:

《中文跨文档指代消解的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文跨文档指代消解的研究与实现中文摘要跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研究的深入,跨文档指代消解越来越受到青睐,因为它在篇章之间也构建了多条指代链,不仅可以获得关于某个实体更详细的信息,而且能将一些很有价值的信息反馈到指代消解的研究中,使指代消解取得突破性的进展。由于中文跨文档指代消解的研究尚且处于起步阶段。本文深入分析现有的英文跨文档指代消解技术,设计了中文跨文档指

2、代消解的系统,该系统包括中文人名跨文档指代消解和中文地名跨文档指代消解两部分。对于中文人名跨文档指代消解,提出两步实现的方案:首先抽取传记信息、相容信息,对指代链进行简单的合并、分离和标记,形成初始的指代链集合。然后采用基于向量空间模型(VSM)I拘聚类方法对指代链进行聚类,形成最终的指代链集合。对于中文地名跨文档指代消解,提出通过文档层信息的抽取与基于VSM的聚类相结合的策略来实现。此外,由于中文跨文档指代消解语料库的缺乏,我们从搜索引擎上搜集和整理了113篇具有相同人名“张伟”的文档和30篇

3、具有相同地名“通州’’的文档,对这些文档进行预处理、人工校对和核对后作为中文人名和地名的语料库。本文采用B.CUBED算法对系统进行评估,在中文人名语料库上,其F值最高为95.71%,对应的准确率和召回率为92.41%和99.25%。在中文地名语料库上,其F最高为89.30%,对应的准确率和召回率为100%和80.66%。特别是,本文系统深入研究了不同的特征与特征的组合,不同的相似度计算方法,不同的阈值取值间隔,传记信息、相容信息和文档层信息加入与否对系统性能的影响,同时还研究了中文指代消解与中

4、文跨文档指代消解的关系。通过对比实验结果,检查实验错误,分析了中文跨文档指代消解的错误类型和解决方案,为接下来的工作奠定了基础。实验表明,本文的中文跨文档指代消解系统性能良好。中文摘要中文跨文档指代消解的研究与实现关键词:指代消解;中文跨文档指代消解;传记信息;相容信息;文档层信息;向量空间模型;B_CUBED算法作者:陆长生指导老师:朱巧明孔芳ResearchandImplementationofChineseCross-DocumentCoreferenceResolutionAbstrac

5、tandImplementationofChineseCross..DocumentCoreferenceResolutionAbstractCross-Documentcoreferenceresolutionisanimportanttopicinnaturallanguageprocessing,itisakeycomponentofapplicationsystemssuchasIE(InformationExtraction),IR(InformationRetrieval),mult

6、i-documentsummarization,ect.Inthepastdecade,suchresearchfocusedmainlyoncoreferenceresolutioninasingletest.Withtheprogressoftechnology,cross-documentcoreferenceresolutioncausedincreasingconcern,becauseitconstructsmanycoreferencechainsbetweendocuments,

7、SOmoreinformationonentitiesCanbegotfromthetexts.Besides,someusefulinformationobtainedfromcross.documentcoreferenceresolutioncanbefeedbacktocoreferenceresolution.Inthisway,coreferenceresolutioncouldmakeabreakthrough.AsthestudyofChinesecross—documentco

8、referenceresolutionisstillinitsinfancy,thisarticlegivesadetailintroductionaboutresearchonEnglishcross-documentcoreferenceresolution.ThroughreferencingpapersonEnglishcoreferencecross—documentresolution,aplatformofChinesecross—documentcoreferenceresolu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。