欢迎来到天天文库
浏览记录
ID:31985512
大小:2.39 MB
页数:61页
时间:2019-01-30
《基于最大熵模型的汉语框架语义角色自动标注》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据第1章引言1.1课题研究背景和意义计算机在自然语言研究领域的应用,大幅度提高了语言信息的处理速度和质量,同时也诞生了一个新的跨学科研究领域一计算语言学(ComputationalLinguistics,CL)或自然语言处理(NaturalLanguageProcessing,NLP)。为使计算机具有理解、处理和生成自然语言的能力,必须使计算机能够分析自然语言语句的含义,也就是进行语义分析。多年来,国内外计算语言学界的学者们一直在探索有效的自动语义分析方法。作为目前的热点研究问题之——语义分析,是指根据自然语言中每个
2、实词的词义和相对关系推导出能够反映这个句子意义的某种形式化表示。由于当前语义分析相关技术的限制,本文并不对整个句子进行详细的语义分析,其实质是在句子层面进行浅层语义分析。Gildea等【l】(2002)最早使用概率上下文无关的方法进行语义角色标注的研究是对语义分析的一种新的探索。语义角色标注,即对于给定的句子,对句中的每个谓词(动词及动词短语、名词及名词短语等)分析出其在句子中对应的语义成分,并对其做相应的语义标记,如施事、受事、工具或附加语等。2008年,自然语言研究的国际上权威学术期刊((ComputationalLi
3、nguistics))出了一期关于语义角色标注研究的专辑。同时,国内近年来语义角色自动标注也得到越来越多研究者的重视,并且在重要的学术会卜标注评测结果越来越好。本论文研究课题的来源是国家自然科学基金项目“汉语框架语义角色自动标注研究”的支持。我们在这里做的语义角色自动标注是一种自然语言理解的浅层语义分析,只是浅层的一些研究,最终要靠实际的应用来体现它的价值。如果这个问题得到有效的解决,我们将对包括大规模语义知识库的构建、信息抽取系统、自动问答系统、机器翻译、信息检索等在内的应用领域都有着广泛的应用,其深入的研究对自然语言处
4、理技术的整体发展有重要意义。例如:Surdeanu等【8】人利用浅层语义分析技术进行信息抽取,并且提高了信息抽取,特别是事件抽取系统的性能。Narayanan等人【9J首次将浅层语义分析技术应用于自动问答系统,并且取得了不错的效果。源于浅层语义分析步骤能够识别出一个动词的施事、受事,以及该动作发生的时间、地点等信息,这对回答一些针对该动作的问题是非常有帮助的。浅层语义分析技术在全自动的机器翻译这个古老而有魅力的课题方面的应用,使得机器翻译可以利用自然语言内在的结构、万方数据基于条件随机场模型的汉语框架语义角色自动标注研究语
5、义等信息,从而使用较少的资源,达到更好的效果。另外,浅层语义分析在词义排歧(WordSenseDisambiguation)[111、复述(Paraphrasing)‘121等领域利用浅层语义分析的结果也得到较好的效果。因此,我们在自然语言领域,做与句子语义有关的课题时,做好浅层语义分析将为这些方向提供新的动力。1.2研究现状1.2.1国际评测自2002年以来,国际上针对语义角色的自动标注举行过六次评测,吸引了国内外越来越多的研究者的参与。6次评测分别为Senseval一3121,SemEval2007131,CoNLL(
6、conferenceoncomputationallinguisticslearning)会议主办的SRL(semanticrolelabeling)SharedTask2004141,2005151以及CoNLLSharedTask2008161,2009[71。其中,CoNLLSRLSharedTask是以PropBank,NomBank为语料,而Senseval一3的SRLTask和SemEval2007Task-19是以英文FrameNet为语料。即将举办的Semeval.2010114】主要是以FrameNet为
7、训练和测试语料。为进一步研究方便,能够更清晰地把握FrameNet发展方向和评测重点,我们介绍一下这几次评测的主要任务:Senseval一3中关于语义角色自动标注(AutomaticLabelingofSemanticRoles)的任务主要是对Giledea和Jurafsky[131的核心工作的扩展。其中,语义角色的任务定义为:给定一个句子,并且给定该句子中的目标词和它所属的框架,自动的识别出句子中所有的框架元素并且标注出各个框架元素的类型。实验数据来自于从FrameNet数据库中随机抽取出来的40个框架的所有标注例句,共
8、8002句。CoNLLSharedTask2004主要任务是基于自动的浅层句法分析,来自ColoradoUniversity的Hacioglu等,他们以短语为标注单元,按语义角色识别和分类分步进行的策略,使用SVM分类器在不使用全局特征的条件下,在10个参赛队伍中获得了最好的标注结果,测试的F—Scor
此文档下载收益归作者所有