《基于多层CRFs的汉语介词短语识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
硕士学位论文基于多层CRFs的汉语介词短语识别研究ResearchonChinesePrepositionalPhraseIdentificationBasedonMulti-·layerConditionalRandomFields学号:21017001完成日期:2013—05—27大连理工大学DalianUniversityofTechnology lIIIIIIIIlUlMIIIIIIIIl—Y2417320大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基±垒昱受堡&鱼这语企词筮篮趔盈壑作者签名:雏态日期:2Ql主年上_L月丑日 大连理工大学硕士学位论文摘要介词短语是汉语中一种重要的短语类型,在汉语中占有较大的比例。介词短语的正确识别可以简化句子结构;缩小中心动词的选择范围;降低句法分析的难度。基于介词短语识别的重要性,本文提出了基于条件随机场(ConditionalRandomFields,CI讧s)的汉语介词短语识别方法,并采用基于转换的错误驱动学习方法对结果进行校正,较好地完成了介词短语识别任务。本文将介词短语识别问题转化为序列标注问题,基于CRFs模型在序列标注上的优点,选用CRFs模型作为标注模型,通过分析介词短语的结构特征,为CRFs模型选取了6个有效的特征,并采用递增式的学习方法选择特征模板,优化了模型的性能;针对句子中含有多个介词短语识别效果不理想的现状,提出了多层识别的方法,分层识别每一个介词短语,将识别出的介词短语用特殊的符号替换,进而简化句子结构,缩短句子的长度;本文为了进一步提高介词短语识别的效果,采用基于转换的错误驱动学习方法对基于CRFs模型的识别结果进行校正。论文对基于单层CRFs模型、基于多层CRFs模型及加入错误驱动学习方法分别进行实验。实验证明,本文采用的多层CRFs模型的介词短语识别方法是有效的。通过对人民日报2000年语料中的7000多个介词短语进行五倍交叉实验,精确率、召回率、F1值分别为91.45%、91.39%和91.42%。在引入基于转换的错误驱动的学习方法对识别结果进行校正后,精确率、召回率、F1值分别达到91。98%、91.92%和91.96%,进一步提高了识别的效果。本文对介词短语识别的研究取得了较好的成果,可以将该成果应用到句法分析、机器翻译等领域。关键词:介词短语识别;条件随机场模型;多层方法;基于转换的错误驱动学习 基于多层CRFs的汉语介词短语识别研究ResearchonChinesePrepositionalPhraseIdentificationBasedonMulti-·layerConditionalRandomFieldsAbstractPrepositionalphrases,asaclassofimportantphrases,accountforaratherlargeproportioninChinese.Therefore,prepositionalphraseidentificationhassignificantmeaningwhichsimplifiesthes缸uctureofsentence.reducesthenumberofcandidatemainverbsandmakestheparsingeasily.Inthispaper,wepresentasystemofprepositionalphraseidentificationbasedonConditionalRandomFields(CRFs).Moreover,atransformation-basederror-drivenlearningapproachisadoptedtorevisetheprepositionalphraseidentificationresultsofCI心smodel.Thispapercovertsthetaskofprepositionalphraseidentificationintosequencelabeling.andadoptCRFsmodelasouridentificationmodel.Throughanalyzingthestructuralcharacteristicofprepositionalphrases,sixfeaturesareextractedasourfeaturesetandaneffectivefeaturetemplateisselectedbasedonincrementallearningmethod.Forthesituationofmorethanoneprepositionalphraseexistinginasentence,inordertoreducethecomplexityofphrasesandimprovetheaccuracyofprepositionalphraseidentification,amulti—layermethod,whichidentifiesprepositionalphrasefromrighttoleftbasedonCRFsandreplacetheidentifiedprepositionphrases,isproposedinthisPaper.Forfurtherimprovetheidentificationresults,atransformation-basedelTor-drivenlearningapproachisadoptedtorevisetheidentificationresultsbasedonCRFs.Experimentshowsthat,themulti-layeridentificationmethodbasedonCRFsiseffective.ExperimentscarriedoutonthecorpusofthePeople’SDaily2000containingmorethan7,000prepositionalphrases,theprecision,recallandF-valueCallachieve91.45%,91.39%and91.42%respectively.Withthehelpoftransformation-basederror-drivenlearning,theperformancesofCRFsbasedprepositionalphraseidentificationaleimprovedto91.98%,91.92%and91.96%.OurresearchOilprepositionalphraseidentificationachievesbetterperformance,whichCallapplytothefieldsofparsing,machinetranslationandSOon。KeyWords:PrepositionalPhraseIdentification;ConditionalRandomFields;Multi-layerMethod;Transformation··basedError·-drivenLearning 大连理工大学硕士学位论文目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.IAbstract⋯⋯.⋯..⋯..⋯.⋯..⋯.⋯..⋯.⋯⋯..⋯⋯.⋯.⋯.⋯⋯.⋯.⋯..⋯.⋯⋯.⋯⋯.⋯.⋯.⋯.。⋯..⋯..⋯⋯。II1绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.2介词短语识别的目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.3介词短语识别的困难⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31.4国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.5本文的主要工作及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62相关理论基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.1统计自然语言处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯82.2有向图模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.1隐马尔可夫模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.2.2最大熵马尔可夫模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..112.3条件随机场模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.142.3.1无向图模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..152.3。2CRFs图结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.152.3.3CRFs势函数⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.162.3.4CRFs参数估计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯182.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.193介词短语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.1介词的特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.203.2介词短语的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.213.3介词短语表示的意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.213.4介词短语的用途⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.243.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.254基于多层CRFs的介词短语识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.264.1标记集的选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.264.2特征抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.274.3生成训练语料和测试语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一294.4特征模板⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.304.4.1特征模板的种类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..31 基于多层CRFs的汉语介词短语识别研究4.4.2特征模板的选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..314.5基于多层CRFs的介词短语识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一324.5.1模型训练模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..324.5.2介词短语识别模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..364.6多层识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.374.7基于转换的错误驱动学习⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.394.7.1错误驱动学习的过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..394.7.2转换规则集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..414.8本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..425实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435.1实验语料⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435。2评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯435.3实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.445.3.1基于单层CRFs的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯445.3.1基于多层CRFs的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯455.3.3错误驱动校正后的实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..465.3.4本文几种方法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..465.3.5与其它介词短语识别方法的比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..485.4错误分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。495.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.51结论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.54攻读硕士学位期间发表学术论文情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一57致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..58大连理工大学学位论文版权使用授权书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一59IV 大连理工大学硕士学位论文1绪论1.1研究背景及意义自然语言处理【11(NaturalLanguageProcessing,NLP)是人工智能和语言学的交叉领域,是一门横跨语言学、数学和计算机科学的学科。这一领域研究涉及人们日常使用的语言,所以自然语言处理与语言学的研究有密切的联系,但又有重要的区别。自然语言处理不单单是利用数学建模来分析和理解自然语言,而是要通过计算机程序来实现分析和理解的过程,进而实现计算机“懂”人类的部分或者全部语言的能力。自然语言处理的研究主要涉及信息检索、机器翻译、文本分类、语音识别等领域。自然语言处理的研究内容由低向高包含四个层次:(1)词法分析词法分析包含词性和词汇两个层次。在自然语言处理领域,词法分析主要任务就是对文本进行词语切分,这是解决自然语言领域问题需要的最基础的过程。(2)句法分析句法分析是当前自然语言处理的研究重点和难点问题。句法分析主要是分析句子中的每个词、短语的含义及依存关系来确定整个句子的结构。(3)语义分析语义分析就是根据句子中词语之间的关系,以语义学知识来推测句子的含义。这个阶段包括语义消歧等。(4)语用分析语用分析就是根据句子的上下文关系及应用的具体环境进行更深入的语义分析。在早期的自然语言处理系统中,采用的方法都是完全句法分析(fullparsing)。由于完全句法分析要确定句子所包含的全部句法信息,并要确定句子中各成分之间的关系,这是一项十分艰巨的任务。为了降低问题的复杂性,同时获取一定的句法结构信息,浅层句法分析(shallowparsing)应用而生。浅层句法分析也被称为部分句法分析(partialparsing)或者组块分析(chunking),它与完全句法分析不同,完全句法分析要求在对整个句子分析和识别的基础上,完成相应句子的完全句法分析树的构造;而浅层句法分析只是要求识别出句子中某些结构相对简单的独立成分,例如:基本的名词短语、动词短语等。浅层句法分析将句法分析分解为两个子任务:语块的识别和分析;语块之间的依附关系分析。其中,语块的识别和分析是主要任务。近几年来,语块识别问题成为自然语 基于多层CR.Fs的汉语介词短语识别研究言处理领域研究的基础性热点问题,越来越受到研究者们的广泛关注。介词短语作为一种重要的短语类别,在汉语中占有很大的比例。吴云芳【2】对包含十万字、六万词的语料包含介词短语的句子数进行统计,统计结果表明,科技类文章包含介词短语的句子占57%,而政论类文章包含介词短语的句子则占63%。本文还对2000年人民日报语料进行统计,统计结果显示,介词短语比例高达15%。因此,汉语介词短语的正确识别对于浅层句法分析、机器翻译等研究具有重要的意义。介词短语识别的重要意义主要体现在以下几个方面:(1)句子的中心动词不可能存在于介词短语的内部,因此介词短语的正确识别可以减少中心动词的选择范围。例如:“刑法/对/非法/生产/、/销售/、/使用/专用/间谍/器材/的/处罚/作/了/明确/规定/。/”,这个句子中一共有“生产”、“销售”、“使用”和“作”四个动词;只有一个“对非法生产、销售、使用专用间谍器材的处罚”介词短语。其中,介词短语包含了前三个动词“生产”、“销售”、“使用”,排除了它们作中心动词的可能性。所以,只有动词“作”可以作为中心动词。(2)介词短语的识别错误往往会给句法分析带来错误【3】。介词短语在句子中可以充当状语、补语、定语等成分,是一种表现形式多样的短语。介词短语的正确识别可以降低句子结构的复杂性,提高句子主干的清晰程度,并为句子的进一步处理和分析提供了帮助。介词短语的错误识别很容易使机器翻译系统中的句子翻译出现错误;相反,介词短语正确识别后,把介词短语作为一个整体进行翻译,这样就可以使翻译系统的正确率有很大的提高。例如:“公安机关/将/在/全国/范围/内/实施/对/违章/驾驶员/记分/管理/。/”,这个句子含有“在全国范围内”和“对违章驾驶员”两个介词短语,如果能够正确识别出它们,那么整个句子的结构将简化为“公安机关/将/在全国范围内/实施/对违章驾驶员/记分/管理/。/”。对比简化前后的两个句子结构可以看出,把介词短语作为一个整体的句子结构更加简单清晰,更有利于进行翻译。因此介词短语的翻译可以单独进行,而不会对句子主干的翻译产生影响。(3)对于基于模板的机器翻译系统而言,正确识别介词短语为模板匹配提供帮助。由于一些短语的错误识别(包括介词短语)导致句子模板匹配存在很大的困难。文献[4]指出“在句法分析中,没有彻底地对介词短语进行分析,导致该合并成介词短语的没有被合并,使模板匹配出现问题。”例如:①用/{短短/1/年}MC>/时间/使/{快要/破产)
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请