语料对中文指代消解影响研究

语料对中文指代消解影响研究

ID:46223126

大小:56.02 KB

页数:7页

时间:2019-11-21

语料对中文指代消解影响研究_第1页
语料对中文指代消解影响研究_第2页
语料对中文指代消解影响研究_第3页
语料对中文指代消解影响研究_第4页
语料对中文指代消解影响研究_第5页
资源描述:

《语料对中文指代消解影响研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、语料对中文指代消解影响研究高俊伟,孔芳,朱巧明,李培峰(苏州大学计算机科学与技术学院,江苏苏州215006)摘要:指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近儿年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于屮文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005,OntoNotes等。为了探讨语料库对中文指代消解的影响,本文实现了一个基于机

2、器学习方法的屮文名词短语指代消解平台和一个基于无监怦聚类方法的屮文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。关键词:指代消解;名词短语;无监督;聚类;语料中图分类号:TP391ResearchontheeffectofthecorpustotheChineseNounPhraseAnaphoraResolutionGaoJunwei,KONGFang,ZHUQiaoming,LIPeifeng(SchoolofComputerScience

3、&Technology,SoochowUniversity,Jiangsu,Suzhou215006,China)Abstract:Coreferenceisacommonphenomenoninnaturallanguage,ithasagreateffectthatmakesthenaturallanguageclearandexplicitillusions.Coreferenceresolutionistheprocessthatfindsthesephenomenonsbyusingtheco

4、mputer・AgreatdealofresearchhasbeendoneonthistaskinEnglishandachievedagreatachievementinrecentyears・However,muchlessworkhasbeendoneinthisareainChinese・OneproblemisthattheresearchofChineseNLPislaterthanEnglish,theotherproblemisthatthelackofpubliccorpusinth

5、eresearchofChineseNLP,thepubliccorpusofChinesejusthaveACE2005,OntoNotesandsoon.TodiscusstheeffectofthecorpustotheChineseNounPhraseAnaphoraResolution,wepresentaChinesenounphrasecoreferenceresolutionsystemthatbasedonmachinelearningapproachandanothersystemt

6、hatbasedonunsupervisedclusteringapproach・WediscussedtheeffectofthecorpustotheChinesenounphrasecoreferenceresolutionbasedonthetwoplatformsfromthequantityandthequalityofthecorpus・Keywords:Coreferenceresolution;Nounphrase;Unsupervised;Clustering;Corpus0引言指代

7、是自然语言中一种常见的语言现象,指在文本中用一个语言成分回指以前提及过的某个语言单位,表现形式有别名,代词,专有名词等。这种指代现象对减少冗余,简化语言,突出主题,使文本上下连贯通俗易懂都有很好的作用。随着人机对话,机器翻译,信息抽取等研究的不断深入,指代消解的研究也越來越受到大家的关注,指代消解己成为口然语言处理领域中的热点和难点之一。在语言学中,指代词也称为照应语,表示用于指向的语言单位,被指向的语言单位称为先行语。指代消解的主要任务就是确定照应语所指向的先行语的过程。指代现象一般来说分为两种:回指

8、和共指,回指主耍指当前的指代词与文中出现的词或基金项H:本文受国家白然科学基金(90920004,60970056,61070123,61003153)和江苏省高校白然科学重大基础研究项目(08KJA520002);博士点基金(200802850006)资助。作者简介:高俊伟(1986・),男,硕士研究生,主要研究方向:自然语言处理通信联系人:孑L芳(1977-),女,副教授,主要研究方向:自然语言处理.E-mail:kongfang@su

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。