资源描述:
《基于依存关系的句子理解模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于语义依存关系的句子理解模型李涓子王作英‘清华大学计算机科学与技术系.清华大学电子工程系Ijz@keg.cs.tsinghua.edu.cn摘要:句子中词与词之间的远8P离关系和句子意义的理解是建IT语高模型的中两个重要问题。本文依据依存语法理论,用语义依存关系序列表小句了中词之间的句法语义关系,该方法可以减少人工标注句子语义结构时使用的时间:在此表示方法下,本文提出一个基于语义依存关系的句子理解模型.模型可以解决词之间的远距离依存关系和句子意义理解问题.关键词:语言模型依存语法句法分析器自然语言理解SentenceUnderstandingmodelingbasedonse
2、manticdependencyRelationshipsLiJuanziWangZuoying*Depa.OfComputerScienceandTechnology,TsinghuaUniversityDepa.OfElectricEngineeringandTechnology.TsinghuaUniversityABSTRACT:Long-distancedependencybetweenwordsandsentenceunderstandingaretwoimportantproblemsinlanguagemodeling.Thispaper,byusingthet
3、heoryofdependencygrammar,usesasequenceofsemanticorsyntacticrelationstodenotethesemanticstructureofsentencesothatitcanspeedthesentencetaggingFurthermore,anunderstandingmodelbasedonsemanticdependencyrelationsisproposed.Themodelcansolvetheproblemoflong-distancedependenciesbetweenwordsandtheprob
4、lemofsentencemeaningunderstanding.Keywords:speechrecognition,languagemodel,dependencygrammar,parser一、引言N元语法模型是语音识别中被广泛使用的一种语言模型。但现有的语言模型存在两个问题:第一,不能解决N元语法模型中词之间的远距离搭配问题。第二,不能解决语音识别中句子的意义理解问题。在解决远距离搭配问题的语言模型的研究中,代表性的模型有cache模?[9[1],Trigger模型[Z],可变长度和跨长度的N元语法模型(目前长度从1到4)[3][4],这些模型都试图在N元语法模型上找
5、出句子中词之间的远距离关系,而这些关系并不完全是词之间真正的句法语义关系,因此也不可能达到对句子的理解。约翰霍普金斯大学(JHU)在宾州大学建立的句法分析树库(UpermTreebank)上建立句法分析器,提出了语音识别的句法结构语言模型[5]。实现的模型在SWICHBOARD语料的实验表明,该方法比.264.传统的基于词的二元模型有改进。但是建立这样的模型需要有大规模的带句法结构的语料库,而汉语日前还不存在这样的人规模的带句法结构的语料库。另一方面,目前理解模型的研究还限定在特定领域,模型大都采用基于语义类和基于规则的语言模型。国外较成功的理解语言模型有MIT研制的JUPIT
6、ER系统和Philips公司建立的理解模型[6][71。这些理解模型存在以下问题。第一:需要手工编写语法规则,在向语法中添加新规则时需要保证语法的一致性,存在规则方法的不足。第二:在Philips的系统中使用人为赋予的概率规则,具有一定的局限性。第三:上面的语言理解模型并不是结构的语言理解模型。本文利用依存语法理论,用一组语义依存关系表示句子的语义结构信息,提出了一个融解决词之间远距离搭配和意义理解问题为一体的句子理解机制。实验表明,理解模型具有较高的分析正确率。、句子语义依存关系及其形式化表示、句子语义依存关系的形式化描述句子的意义是由句子中词之间的句法语义关系体现出来的,而
7、依存语法描述的止是具有直接句法语义联系的词之间的关系,因此我们在描述句子中词之间的语义关系时,采用了相对成熟的依存语法理论。设W是含有n个词的句子,表示为W=w,,%.,,...,w=,由W中各词对应的语义类组成的语义类串为S=si,SZ,⋯,s=。则W的语义依存关系表可表示为SRL={SR(I),SR(2),,二,SR(n)},其中,SR(i)=(j,R),它表示句子中第i个词是第l个词的修饰成分,他们之间的语义依存关系为R,并且这个关系下的中心词为wj,中心词的语义类为Si。可以用SR(