基于句法树的藏语最长名词短语识别

基于句法树的藏语最长名词短语识别

ID:33338182

大小:840.37 KB

页数:7页

时间:2019-02-24

上传者:U-1390
基于句法树的藏语最长名词短语识别_第1页
基于句法树的藏语最长名词短语识别_第2页
基于句法树的藏语最长名词短语识别_第3页
基于句法树的藏语最长名词短语识别_第4页
基于句法树的藏语最长名词短语识别_第5页
资源描述:

《基于句法树的藏语最长名词短语识别》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

第**卷第*期中文信息学报Vol.**,No.*201*年*月JOURNALOFCHINESEINFORMATIONPROCESSING***.,201*文章编号:1003-0077(2018)00-0000-00基于句法树的藏语最长名词短语识别123龙从军刘汇丹周毛克(1.中国社会科学院民族学与人类学研究所,北京100081;2.中国科学院软件研究所,北京100190;3.中国社会科学院研究生院,北京100081)摘要:最长名词短语携带着丰富的句法和语义信息,经常与句法成分对应,在句子中充当一定的语义角色。最长名词短语识别在自然语言处理中占重要地位,是分析和理解句子结构和意义的基础。本文通过梳理不同概念的最长名词短语的含义,从句法树角度界定了藏语最长名词短语的基本概念;从句法树库中抽取6038个句子,分析了最长名词短语的结构类型、边界特征和出现频次,最后采用序列标注模型和句法分析模型对最长名词短语进行识别。序列标注模型识别结果的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。句法分析模型识别结果的正确率、召回率、F1值分别为85.02%、84.51%、84.76%。关键词:藏语句法树;最长名词短语;名词短语类型中图分类号:TP391文献标识码:ARecognitionofTibetanthelongestnounphrasesbasedonsyntaxtree123LONGCongjun,LIUHuidan,ZHOUMaoke(1.InstituteofEthnologyandAnthropology,ChineseAcademyofSocialSciences,Beijing100081,China2.InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,China;3.GraduateschoolofChineseacademyofsocialsciences,Beijing102488,China)Abstract:Thelongestnounphrasescarryabundantsyntacticandsemanticinformation,frequentlycorrespondingtosyntac-ticcomponents;andplayacertainsemanticroleinsentences.RecognitionofthelongestnounphraseplaysanimportantroleinNaturalLanguageProcessingandisthebasisforanalyzingandunderstandingsentencestructureandsemantics.Bycom-paringtheessenceofthedifferentlongestnounphrases,thispaperdefinesthefundamentalconceptofthelongestnounphraseinTibetanlanguagebasedontheperspectiveofsyntaxtree.Totalof6038sentencesareextractedfromthesyntaxtreecorpus,thestructuretype,boundaryfeatureandfrequencyoflongestnounphrasesareanalyzed,andthelongestnounphrasesarerecognizedusingthesequenceannotationmodelandthesyntacticanalysismodel.Thecorrectrate,recallrateandF1valueoftherecognitionresultsofapplyingsequenceannotationmodelare87.14%,84.72%and85.92%respectively.Thecorrectrate,recallrateandF1valueoftherecognitionresultsofapplyingsyntacticanalysismodelare87.66%,87.63%and87.65%re-spectively.Keywords:Tibetansyntaxtree;thelongestnounphrase;typeofnounphrase人通过识别文本中的实体、概念来理解文本,0引言理解了文本中的实体概念,在某种程度上就理解了文本的大致内容。名词或名词短语经常被用来收稿收稿日期:2018-06-01;定稿日期:2018-07-12基金项目:国家语委科研项目(ZDI135-17); 2中文信息学报第2*卷表达实体、概念。名词或名词短语的识别在自然长名词短语,从他列举的例子中,可以观察得出,语言处理中占重要地位,是一个句子的主要组成所谓表层最长名词短语是指在句法树的子树中,部分,它携带着丰富的句法和语义信息,是分析包含的第一个层级的名词短语,非表层最长名词和理解句子意义和结构的基础。在自然语言信息短语是指表层最长名词短语中不包含动词短语的[23]处理领域,名词短语的识别和结构分析正确可以嵌套名词短语。提高机器翻译、信息检索、文本分类、自动句法Koehn和Knight从句法树的角度界定最长名分析等自然语言处理系统的性能。词短语和介词短语,即给定一个句子S和它的句在藏语信息处理领域,词法分析取得了丰富法分析树t,名词和介词短语是句子S的子树ti,[1-4]的成果,信息处理逐渐从词法分析为主过渡到它至少包含一个名词,但不包含动词,不被更大[24]句法、语义和篇章分析为主的阶段。从句法分析的名词短语和介词短语所包含。Koehn和的角度来看,研究内容表现在两个方面:一是句Knight对最长名词短语的界定基于句法树,这个子的识别,二是句法分析。句子识别主要讨论如定义比较符合本文基于短语结构树的藏语最长名何从连续文本中切分出一个个句子。如从语言规词短语的定义,藏语最长名词短语基于句法分析则出发,可以根据藏语动词语尾的特点,构建句树,更加注重名词短语及其他短语在句法分析树[5-6]子边界切分标记库,实现句子切分;或者采用上的位置。参考前人的研究成果,结合藏语句法[8-12]规则和统计相结合的方法识别句子边界;也分析树的实际情况,本文把藏语最长名词短语界有一些研究,在双语语料对齐研究中,探讨句子定为:[13-14]的边界问题。句法分析主要讨论基于短语结给定一个藏语句子的句法分析树S,最长名[15]构的句法分析和基于依存语法的句法分析词短语是S的子树t,t是名词短语但t的父节点[16-17]。为了降低句法分析的难度,研究者倾向于及祖先节点都不是名词短语。采用组块分析方法进行局部句法分析,其中名词这个概念界定比较宽泛,从句法分析树看,[18-20]组块是组块分析的重要部分。尽管局部句法自顶向下,第一个名词短语就是本文所指的最长分析取得了一定的成果,但是,从语言工程实践名词短语。角度来看,成系统、上规模的藏语句法树库资源最长名词可以由单个名词、代词、数词等构极其缺乏,实用的句法分析工具也未见公开。成。如图1所示,KP-SBJ-AGE短语的子节点RP本文开展基于藏语短语结构句法树库的最长(人称代词提升为名词性短语),KP-OBJ-TAR短名词短语研究,从构建短语结构树的角度,理清语的子节点NP,VP短语的子节点NP为最长名最长名词短语的定义、类别。从句法树库中选取词短语。了6038个句子,对名词短语的类型、结构等统计分析。初步构建藏语最长名词短语识别器,分析识别效果和存在的问题。1最长名词短语定义台湾学者Chen研究英语名词短语的分类,总结出三种名词短语:最短名词短语、最长名词短语和普通名词短语。所谓最短名词短语是指不包含其他名词短语的名词短语,最长名词短语是指图1句法树中的最长名词短语不被其他名词短语所包含的名词短语。普通名词为了更细致地描述藏语最长名词短语,特做短语是不具有任何限制的名词短语[21]。周强把名如下界定:词短语也分成三类:最短、最长和一般名词短语。(1)最长名词短语是指中心词为名词的所有一般名词短语指所有不是最长和最短的名词短语短语;最长名词短语的中心词位置可以居于短语[22]。两种分类类似,但内涵有差别,如在对待单首、短语中和短语末。如图2(1)的中心名词居个词构成短语时,前者的基本思想是,一个词可尾、图2(2)的中心名词居中、图2(3)的中以构成最长名词短语;但后者认为,一个词构成心名词居首。的短语不是最长名词短语。钱小飞在总结各种名(2)最长名词短语可以由单个名词、代词、词短语定义之后,区分了最长名词短语和表层最数词等构成;如图2(3)中名词ཅ་ལག་和代词འདི་ *期龙从军等:基于句法树的藏语最长名词短语识别3提升为短语,然后再与短语一起构成更大的短语。གསར་བ་/a))(MPཞིག་/m))(VPབིན/vt))))(PU།/xp)))(医(3)名词化标记可以作为最长名词短语的中生对我的胃病开了新药)心词,如图2(4)名词短语的中心是名词化标记。叶子节点(终结点)是词和词性。词与词性(4)最长名词短语可以是嵌套短语,包括内的上位节点是短语(非终结点),非终节点可以承嵌名词化短语,如图2(1)是嵌套的名词化短语,载短语信息、句法功能信息、语义角色信息和句图2(2)中嵌套有名词短语,图2(4)内嵌套子关系信息。在上例中,KP-OBJ-TAR表示带有动词短语。格标记的名词短语(KP)的子节点在句子中充当间接宾语(OBJ),表示对象(TAR)语义角色。基于短语结构语法的藏语句法树库标注符号可以分成三类:短语标注符号、句法标注符号和语义角色标注符号。(1)短语标注符号包括IP(带时体态的句子)、S(核心句)、NP(名词短语)、KP(带有格标记短语)、NZP(名词化短语)、VP(动词短语)、ADJP(形容词短语)、ADVP(副词短语)、ADZP(副词化短语)、NGP(领属关系短语)、VP(动词短语)、QP(量词短语)、MP(数词短(1)(2)语)、PRN(插入语短语)、IDE(独立成分)、UP(带助词标记短语)(2)句法标注符号包括:SBJ(主语)、OBJ(宾语)、PRE(谓语)、ADV(状语)、APP(同位语)(3)语义角色标注符号包括:AGE(施事)、PAT(受事)、TAR(对象)、DIR(方向)、SPA(处所)、TIM(时间)、MAN(方式)、INS(工(3)(4)具)、MAT(材料)、SOU(源点)、PUR(目的)、图2名词短语结构类型FAC(使役)、RES(结果)、BAS(依据)。在句法树标注过程中还需要说明的一些标注2句法树库及最长名词短语抽取符号包括:I(时体态)、T(时)、E(态)、H(名词化标记)、AUX(助动词)、G(连接标记-属格)、PL(复数标记)、U(助词标记)、Z(后缀标记)、2.1藏语句法树库介绍RP(人称代词)、K(格标记)、Y(语气标记)。词性标注体系可以参阅《中国语言生活绿皮书藏语句法树库由中国社会科学院民族学与人1A006》类学研究所构建,句法分析采用了短语结构语法,本文研究材料来源于1万句基本句型句法分析树2.2最长名词短语抽取库。为了研究最长名词短语的内部结构,展示藏在句法树库中,一个句子除了按照词切分之语最长名词短语的特性,作者首先从句法树库中外,还包括词的词性信息、短语类型信息、句法选择一定的句法树,抽取出最长名词短语。抽取功能信息、语义角色信息以及句子(或者结构)方法主要是根据嵌套括号标记,找到句法树中最的关系信息。在短语类型层级的节点上,标注的长的、节点标记类型为NP的短语,并将该节点信息包括短语类型、句法功能和语义角色。如果的文本表示抽取出来;同时,将构成短语的每个涉及到句子或者结构之间的关系,在短语的句法词语的类别也抽取出来。例如:功能之后标注关系信息,例如:((IP(S(KP-SBJ-AGE(NPསྨན་པ/ng)(Kས་1/ka))(VP(KP-OBJ-TAR(NP(NGP(NP(NGP(NP赵小兵,孙媛,龙从军等:信息处理用现代藏语ང/rh)(Gའི་/kg))(NPཕོ་བ/ng))(Gའི་/kg))(NPནད་词类标记集规范(草案),教育部语言文字信息管理司组/ng))(Kལ་/kd))(VP(NP-OBJ(NP(NPསྨན་/ng)(ADJP编,《中国语言生活绿皮书A006》,商务印书馆,2015年7月。 4中文信息学报第2*卷((IP(S(KP-SBJ-AGE(RP(rhཁོད་))(K(kaཀིས་)))的名词短语包含18个音节,且是内嵌名词化短语,(VP(NP(NP(NP(NP(ngརྒྱ་མཚོ་))(G(kgའི་)))(NP(ng如:ངང་རྒྱུད་རིང་པོའི་སོ་ནས་སོབ་ཕྲུག་སོད་ཉེས་པ་དེ་ཚོ་བོ་འགུག་བེད་ཡས་དེ་(耐心གནས་ཚུལ་)))(ADJP(aཅི་ཙམ་)))(VP(vtཤེས))))(PU(xp།))))地教导那个有坏行为的小学生),短语内嵌一个小以NP节点为例,抽取出该节点对应的子树为句,通过名词化标记ཡས་名词化后,与指代词དེ་(NP(NP(NP(NP(ngརྒྱ་མཚོ་))(G(kgའི་)))(NP(ngགནས་构成名词短语。ཚུལ་)))(ADJP(aཅི་ཙམ་))),对应的名词短语为NP,由经对不同结构类型的最长名词短语统计,统(NP(ngརྒྱ་མཚོ་))(G(kgའི་)))(NP(ngགནས་ཚུལ་))构成。类计数据如表格1所示,在语料中出现次数小于10似的,从该句子中还可以抽取出其他KP节点下次的结构类型,共计450种,超过90%的结构类的RP(RP等同于NP)。由RP独立构成。根据型出现总次数只占9%。这些类型不是最长名词该规则可以从句子中抽取出两个最长名词短语,短语的强势组合模式。其中有316种结构只出现分别是:(RP(rhཁོད་))和(NP(ngརྒྱ་མཚོ་))(G(kg1次,如:ADJP+VP+H+G+NP+NP,གསར་པ་བརྒྱབ་པའི་མི་འི་)))(NP(ngགནས་ཚུལ་)))(ADJP(aཅི་ཙམ་)))。དམངས་སྨན་ཁང་(新建的人民医院);NP+ADJP+ADVP+VP+AUX+H+RP,བོད་སྐད་ཡག་པོ་འདི་3最长名词短语结构分析འདྲས་གསུང་ཐུབ་ཡས་དེ་(藏话能说得这样好)等。有85种结构,每种出现2次,如:NP+ADVP+ADJP,དོ་སྣང་ཧ་ཅང་ཆེན་པོ་(非常大的注意力)。少于10次的名前文谈到,最长名词短语可以是独词构成,也可以由多词构成。通过了解最长名词短语在真词短语结构类型出现次数如表格2所示。实文本中的分布状况,有针对性地采取一些处理策略,有利于提高句法分析的精度。理论上,符表格1低频最长名词短语结构类型的种类及出现次数类型总数316853210311787合藏语语法规则的名词短语的长度可以无限递归次数123456789增长,相应地,结构类型也会增加。根据对6038句句法树中的最长名词短语统计结果来看,最长表格2频次大于10的最长名词短语的结构类型及出现次数序号类型频次实例实例翻译1NP4778རླུང་སྒྲ་风声2NP+RP640རི་མོ་འདི་这幅画3NP+G+NP588རྒྱ་མཚོའི་གནས་ཚུལ་海洋的情况4NP+ADJP411སྐད་མཐོན་པོ高的声音5NP+MP390ཁ་བཏགས་ཤིག་一条哈达6RP+G+NP373ཁོད་ཀི་དཔེ་ཆ་你的书7NP+NP264བོད་ཡིག་སོབ་འབིང་藏文中学8RP+PL188ཁོ་ཚོ他们9NP+ADJP+MP129སྨན་གསར་བ་ཞིག་一种新药10NP+RP+G+NP86རི་དེའི་དབིབས་那山的形状11NP+Z52བོ་བཟང་ལགས་洛桑拉12NP+G+NP+MP49དབིན་ཡིག་གི་རྒྱུགས་ཆུང་ཞིག་一次英语小测验13NP+PL49བིས་པ་ཚོ་孩子们14NP+G+NP+RP46དབིན་ཡིག་གི་ཚིག་འདི་དག་这些英语的句子15NP+G+NP+G+NP44ང་ཚོའི་རྐང་རེད་སོ་ལོའི་རུ་ཁག་我们的足球队16NP+VP+H+G+NP41སོབས་པ་སེད་པའི་ངང་自豪的样子17NP+ADJP+RP40ཅོག་ཙེ་སོར་སོར་དེ那圆圆的桌子18RP+G+NP+G+NP40ངའི་དུས་ཚོད་ཀི་རིན་ཐང་我的表的价值19NP+MP+G+NP39དུས་ཚོད་བརྒྱད་ཀི་སེང་八点整20NP+NP+MP38མེ་ཏོག་ཆག་པ་ཞིག་一束花21RP+G+NP+RP38ཁོད་ཀི་ལན་དེ་你的那回答22NP+NP+G+NP36ལུས་རལ་སོང་བརྡར་གི་རིགས་体育锻炼的种类23RP+MP35ཁེད་རང་གཉིས་你们俩 *期龙从军等:基于句法树的藏语最长名词短语识别524NP+G+NP+ADJP31རྒྱ་མཚོའི་གནས་ཚུལ་ཅི་ཙམ་海洋的情况怎样25RP+NP30ང་གཟུགས་པོ་我身体26NP+QP+MP22ཁ་པར་ཐེངས་གཉིས་两次电话27RP+G+NP+NP22ཁོད་ཀི་ལེ་ཚན་རེའུ་མིག་你的栏目表28NP+K+VP+H+G+NP19རང་ཉིད་ཀིས་བརམས་པའི་རོལ་དབངས་ཤིག་自己作的一首曲子29NP+G+NP+NP17ཡེ་ཤུའི་འཁྲུངས་སྐར་ཉིན་耶稣诞生的日子30NP+ADJP+G+NP15རི་ཆུང་ཆུང་གི་རེ་小山的山头31NP+NP+RP14ལུག་ཤ་སྨད་ཁོག་དེ那后腔羊肉32NP+NP+NP13བ་བང་བོད་ཡིག་སོབ་འབིང་拉藏藏文中学33VP+H+G+NP12ཧམ་སྤུ་བརྒྱབ་པའི་ཁ་ལག་发霉的食物34NP+RP+PL11གད་སིགས་འདི་ཚོ་这些垃圾35RP+K+VP+H+G+NP+RP11ངས་བསྐུར་བའི་སྐུར་མ་དེ་我寄送的包裹36NP+MP+Z10དུས་ཚོད་བཞི་ཡས་མས་四点钟左右37NP+Z+G+NP10སྒྲོལ་དཀར་ལགས་ཀི་གཟིམ་ཁང་卓嘎拉的寝室38RP+G+NP+ADJP10ངའི་མཛའ་གོགས་མང་པོ་我的许多好友39RP+PL+G+NP10ཁེད་རང་ཚོའི་ཕ་ཡུལ་你们的家乡实际上,出现频次最高的前10个约占全部最སེང་)))(K(kcནས་)))(VP(viསོང་))))(PU(xp།))))长名词短语的87%。尤其是单个名词和代词充当((IP(S(NP(NGP(NP(NP(ngཆུ་ཕྲན་))(RP(rd的短语占比高于64%。频次较高的前10种类型དེ)))(G(kgའི་)))(NP(ngགཏིང་)))(ADJP(NEG(dn结构都不包含嵌套名词化短语,长度也不大,最མི་))(ADJP(aཟབ))))(PU(xp།))))多由四个音节构成,详细情况如表格2所示。((IP(S(NP-SBJ-TOP(RP(rhཁོ་))(U(up从表格2中可以归纳如下几种类型:ནི་)))(VP(NP(NP(ngགཟུགས་ཐུང་))(MP(mཞིག་)))(VP(vl(1)独词短语包括名词、代词、数词都可རེད))))(PU(xp།))))以直接构成独词短语,RP,NP,MP,例如:(4)三词短语根据中心词的位置不同可以((IP(IP(S(RP(rhང་))(VP(KP-ADV-SPA分成:中心词居后和中心词居前,前者构成类型(NP(NP(ngབ་བང་))(NP(NP(ngབོད་ཡིག་))(NP(ngསོབ་有:NP+G+NP、RP+G+NP、NP+NP+NP、འབིང་))))(K(kxདུ་)))(VP(viའགོ་)))(I(T(hཀི་))(E(veNP+VP+H2,后者构成类型NP+ADJP+MP、ཡོད))))(PU(xp།)))),NP+QP+MP,例如:((IP(S(NP(ngབོ་བཟང་))(VP(KP-ADV-SOU(NP(ng((IP(S(KP-SBJ-POS(NP(NGP(NP(ngཁང་བ))འགན་བསྡུར་))(K(kcལས་)))(VP(viརྒྱལ))))(PU(xp།))))(G(kgའི་)))(NP(ngཀླད་)))(K(kpན་)))(VP(NP(NP(ng(2)独词加标记(复数、敬语和约数标记)名བུ་ག་))(MP(mཞིག་)))(VP(veཡོད))))(PU(xp།))))词、代词带复数、敬语标记构成RP+PL,NP+PL,((IP(IP(S(RP(rhང་))(VP(KP-ADV-SPANP+Z,数词可以带约数标记构成MP+Z,例如:(NP(NP(ngབ་བང་))(NP(NP(ngབོད་ཡིག་))(NP(ngསོབ་((IP(IP(S(NP(NP(ngབིས་པ་))(PL(plཚོ་)))འབིང་))))(K(kxདུ་)))(VP(viའགོ་))))(I(T(hཀི་))(E(ve(VP(ADZP(VP(ivགལ་བསྒྲིགས་))(U(cནས་)))(VP(viཡོད))))(PU(xp།))))བསྡད་))))(E(veཡོད)))(PU(xp།))))((IP(S(KP-SBJ-AGE(RP(rhང))(K(kaས་)))((IP(S(KP-SBJ-AGE(NP(RP(rhཁོ་))(PL(pl(VP(NZP(VP(NP(ngཉེན་ཁ་))(VP(veཡོད་)))(H(hཚོ)))(K(kaས་)))(VP(ADZP(VP(NP(ngའདེམས་པ་)))(VP(vtཚོམ))))(PU(xp།))))ཤོག་))(VP(vtའཕངས་)))(U(cནས་)))(VP(NP(ngཀྲུའུ་其他类型的短语都是在上述四种类型的基础ཞི་))(VP(vtབདམས)))))(PU(xp།))))上扩充,本文不再一一阐述。(3)双词短语根据中心词的位置不同可以藏语最长名词短语的边界词也具有明显特征。分成:中心词居后和中心词居前,前者构成的类名词短语经常添加格标记,格标记是名词短语最型是NP+NP,后者构成的类型有NP+RP、RP+MP、重要的右边界特征词之一,还有包括数词、指示NP+MP、NP+ADJP,例如:代词、复数标记、敬语标记、形容词等边界特征((IP(S(NP(NP(ngརླངས་འཁོར་))(MP(mཞིག་)))(VP(KP-ADV-SOU(NP(NP(ngརྒྱ་ལམ་))(NP(ng2名词化短语不作为修饰语时,名词化标记是短语的中心。 6中文信息学报第2*卷词。从本文数据统计结果看,作为名词短语一部本文使用两种方法进行最长名词短语识别实分的、典型右边界词中,数词有1313个,复数标验:一种采用序列标注方法,把名词短语识别转记267,代词的905,不作为名词短语一部分的右换为对名词短语边界特征词的识别;另一种采用边界特征词主要是格标记,共有4752个名词短语句法分析方法,在整个句法树生成过程中,统计有格标记。名词短语左边界特征词不明显,判断名词短语子树分析的结果。难度相对大一些。在实验中,共使用6038句藏文句法树进行实验,将其中5000句作为训练语料,其余1038句4最长名词短语识别实验作为测试语料,其实验结果如表格3所示。表格3短语识别情况实验方法抽取数实有数正确数正确率召回率F值基于句法分析的方法22902304194785.02%84.51%84.76%基于序列标注的方法22402304195287.14%84.72%85.92%1、基于句法分析的方法:使用伯克利大学的VP节点的孩子节点应该分析为ADVP和VP,BerkeleyParser在训练集上训练一个句法分析器,实验结果则分析为NP和VP,其原因是,在训练对测试语料进行句法分析,提取其中的最长名词语料中,VP孩子节点分析为NP和VP结构的概短语。句法分析完全正确的句子比例为32.49%。率要远远大于ADVP和VP结构。但是这种错误从测试语料中共识别出短语2290个,其中1947应该比较容易纠正,དལ་གིས已经被标注为副词性短个是测试语料中实际有的短语,测试语料中实有语,在词层级有标记d,这已经说明它不可能是名词短语的总数为2304,名词短语识别的正确率、名词或名词性短语,针对这种错误,可以通过一召回率和F1值分别为85.02%、84.51%、84.76%。致性检测处理进行纠正。2、基于序列标注的模型:将最长名词短语识在基于序列标注模型的分析方法中,名词短别转化为序列标注问题,根据词语在名词短语中语的长度大小会影响分析结果。太长的、具有嵌的位置,给其分别赋予位置标签,本文采用常用套结构的名词短语经常会被“切碎”,例如:བོད་སྐད་ཡག་的BMESO标签集。使用CRF++进行序列标注的པོ་འདི་འདྲས་གསུང་ཐུབ་ཡས་དེ་,序列标注结果为[བོད་སྐད་ཡག་པོ་འདི་训练和预测。从测试语料中共识别出短语2240འདྲས་][གསུང་ཐུབ་ཡས་དེ་],实际上整个字串是一个短语。个,其中1952个是测试语料中实际有的短语,测这是序列标注在处理长距离边界识别问题中普遍试语料中实有名词短语的总数为2304,名词短语存在的问题。识别的正确率、召回率和F1值分别为87.14%、在句法分析中,首先经过分词和词性标注过84.72%、85.92%。程,这个过程中的错误也直接会导致两种模型对从表中数据可以看出,在识别最长名词短语最长名词短语的识别错误。例如:任务中,基于序列标注的方法要比基于句法分析ཁོ་ཚོས་ཁང་བའི་ཀླད་ཞིག་གསོ་བས།的方法稍好。两种模型都分析错误,在分词阶段ཞིག་གསོ་བས被在基于句法分析方法中,缺乏格标记的名词切分为ཞིག་/གསོ་/བས/,而ཞིག་是名词短语右边界的典型短语容易出错,尤其是VP的孩子节点,通常,特征词,因此两种模型都把ཞིག་识别为名词短语的VP可以分析为NP和VP,也可以是ADVP和VP,右边界。本句正确切分和识别结果应该为:从训练语料的情况来看,分析为NP和VP的概率((IP(S(KP(NP(NP(rhཁོ་))(PL(plཚོ)))(K(ka相对较大,因此,模型在预测时经常会把ADVPས་)))(VP(NP(NGP(NP(ngཁང་བ))(G(kgའི་)))(NP(ng预测为NP。例如图3所示。ཀླད་)))(VP(vtཞིག་གསོ་བས))))(PU(xp།))))本文实验以基本句型语料为主,从前文的统计分析也可以看出,较长的名词短语所占比例不大,因此在实验中,基于序列标注模型的处理结果要好于句法分析模型。图3句法分析模型预测结果(右),标准答案(左) *期龙从军等:基于句法树的藏语最长名词短语识别75结语[J].信息与电脑(理论版),2014,(08):62-63.[13]于新,吴健,洪锦玲.基于词典的汉藏句子对齐研究与实现[J].中文信息学报,2011,(04):57-62.最长名词短语识别是句法分析的一项重要子[14]华却才让.藏汉句子局部对齐策略的研究[J].青海师任务,本文在藏语句法树库建设中,针对最长名范大学学报(自然科学版),2010,(04):39-43.词短语问题,从句法树角度界定了最长名词短语[15]扎西加.上下文无关文法与藏语句法分析[J].西藏大学的定义,专门分析了最长名词短语的结构类型,学报[自然科学版),2013,28(2):37-42.[16]扎西加,多拉.藏语依存树库构建的理论与方法探析[J].并采用句法分析方法和序列标注方法分别进行实西藏大学学报[自然科学版),2015,30(2):76-83.验,考察最长名词短语的识别结果,从实验结果[17]华却才让,赵海兴.基于判别式的藏语依存句法分析[J].来看,在针对小规模语料实验中,序列标注的方计算机工程,2013,39(4):300-304.法比句法分析的方法稍好。但是,本结果也许与[18]江荻.现代藏语组块分词的方法与过程[J].民族语实验的语料类型有关,序列标注对短距离标注任文,2003(04):30-39.务效果明显,从最长名词短语结构分析来看,本[19]李琳,龙从军,江荻.藏语句法功能组块的边界识别[J].中文信息学报,2013,27(06):165-168.次语料对序列标注模型有利。由于受到语料规模[20]王天航,史树敏,龙从军,黄河燕,李琳.基于错误驱动学和句法分析文法类型的限制,本文未能开展基于习策略的藏语句法功能组块边界识别[J].中文信息学神经网络的句法分析实验,这是今后努力的方向。报,2014,28(05):170-175+191.藏语句法分析急需要在两个方面开展工作:扩充[21]Kuang-huaChenandHsin-HsiChen:ExtractingNoun句法树库规模;完成短语结构树与依存句法树库PhrasesfromLarge-ScaleTexts:AHybridApproachandItsAutomaticEvaluation[C]//Proceedingsofthe32nd之间的转换,这两个问题是我们近期研究的重点ACLAnnualMeeting,1994,pp.234-241.任务。[22]周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别.软件学报,2000,11(2):195-201.[23]钱小飞,侯敏.面向信息处理的汉语最长名词短语界定参考文献研究.语言文字应用.2017,2:127-134[24]PhilippKoehn,KevinKnight.Feature-RichStatisticalTranslationofNounPhrases[C]//Proceedingsofthe41st[1]李博涵,刘汇丹,龙从军,吴健.基于深度学习的藏文分词AnnualMeetingoftheAssociation,forComputational方法[J].计算机工程与设计,2018,39(01):194-198.Linguistics,July2003,pp.311-318.[2]李亚超,江静,加羊吉,于洪志.TIP-LAS:一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(06):203-207.[3]刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(01):97-103.龙从军(1978—),博士,副研究员,主要研究[4]史晓东,卢亚军.央金藏文分词系统[J].中文信息学领域为藏语计算语言学。报,2011,25(04):54-56.E-mail:longcj@cass.org.cn[5]赵维纳.基于法律文本的藏语句子边界识别,北京语言大学博士论文,2012年6月。[6]赵维纳,于新,刘汇丹,李琳,王磊,吴健.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,(01):115-119.刘汇丹(1982-),博士,副研究员,主要研究领域为操作系统中文信息处理、多语言信息处[7]赵维纳.基于法律文本的藏语句子边界识别[C]//第五理。届全国青年计算语言学研讨会论文集(C).中国中文信E-mail:huidan@iscas.ac.cn息学会,2010:7.[8]李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,(04):39-44.[9]才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,(06):187-190.周毛克(1993—),硕士研究生,主要研究领域[10]徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子为藏语自然语言处理。自动断句方法[J].云南大学学报(自然科学E-mail:zmk_muc@163.com版),2012,(06):653-657+663.[11]马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报(自然科学版),2012,(02):70-76.[12]仁青吉,安见才让.藏文句子边界自动识别方法的研究

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭