欢迎来到天天文库
浏览记录
ID:37698609
大小:1.61 MB
页数:56页
时间:2019-05-29
《基于最大熵的汉语介词短语自动识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、大连理工大学硕士学位论文MASTERALDISSERTATl0N⑧基于最大熵的汉语介词短语自动识别学科、专业指导教师论文答辩日期于浚涛盐蔓盟堡岂堇垄黄德根教授2006年12月大连理工大学硕士学位论文摘要介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。本文首先指出了当前完全语法分析的困难,而介词短语识别和其他类型短语识别以及组块分析是一种解决问题的途径。并介绍了介词短语识别的研究现状以及技术路线,提出
2、了汉语介词短语识别的重要性和可行性。随后在继承了语言学家工作的基础上,对汉语介词短语的语义,语法,语用情况进行了讨论,提出了基于汉语介词短语的分类体系,制定面向计算机的介词短语的标注规范。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个层级识别介词短语。本文实现介词短语识别的系统是基于最大熵的统计模型,最大熵模型具有简洁、通用和可移植等特点,能够灵活地选取特征,同时可以把计算模型和语言模型作为独立地模块处理,而不必关心语言内部的细节。特征集合的选取是最大熵
3、模型的关键,它选取合适与否决定了介词短语识别结果的好坏。因此在本文中针对汉语介词短语的划分和识别,提出了词、词性标注是构成介词短语识别的主要因素,并根据这几种因素结合介词短语的语用特征来确定最大熵模型的特征空间,从中自动获取介词短语识别的有效特征集合。实验表明,利用基于最大熵模型的方法来识别中文介词短语是有效的:系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到89.1%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有很强的推广能力,利用本方法还可以对其它类型
4、短语,如基本名词短语,最长名词短语等进行识别。关键词:自然语言处理;浅层句法分析;介词短语识别;最大熵大连理工大学硕士学位论文AutomaticIdentificationofChinesePrepositionalPhraseBasedonMaximumEntropyAbstractPrepositionalphraseisoneofthemostimportantChinesephrases.ThemeaningofPrepositionalPhraseIdentificationliesinthreeaspec
5、ts.Firstly,itreducesthecandidmenumbersofMainVerbIdentification.Secondly,itsimplifiesthestructureofsentenceandmakestheparsingeasier.inthenextstep.Finally,itbenefitsthetemplatematchinginExampleBasedMachineTranslation.AsakeyproblemofNaturalLanguageljrocessing,thep
6、roblemsofcompletesyntacticparsingare2-1’tsolvedyet.ThethesisaimstodiscussthemethodsandtechniquesofChinesePrepositionalPhraseIdentification.Then,thefirstnovelaspectofOU%workisdiscussingthesemantic,syntaxandusageofChinesePrepositionalPhrase,andmakingaspecificatio
7、nforannotatingtheChinesePrepositionalPhrasefromcomputationalpointofviewiscarefullydesignedbasedontherelatedworkofChineselinguists.Duringtheresearch,BasedonChurch’SideathatBaseNPIdentificationCanbetreatedaspart-of-speechtagging,aneffectiveaigofithmispromotedinth
8、ispapertoidentifyprepositionalphrasesinshallowparsinglevelusingthesefeatures.ThesystemofChinesePrepositionalPhraseIdentificationinthisthesisadoptsastatisticalmodelbasedMaxim
此文档下载收益归作者所有