资源描述:
《基于语料库的基本名词短语研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2008年2月语言文字应用Feb.,2008第1期AppliedLinguisticsNo.1基于语料库的基本名词短语研究徐艳华(鲁东大学文学院山东烟台264025)[摘要]词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以一个完全按照语法功能标准建立起来的实词词类体系为依托,考察了基本名词短语的识别问题。研究表明,利用这个实词词类体系识别基本名词短语,正确率可以达到7113%。[关键词]基本名词短语;功能匹配;组合模式[中图分类号]H08[文献标识码]A[文章编号]100325397(2008)0120120206Corpus2basedBaseNPStud
2、yXUYanhuaAbstract:Theambiguityandinaccuracyofpartofspeechknowledgeisstillanopenissueinthestudyofautomaticparsing.Inthispaper,wemakeadetailedsurveyofrecognitionaboutbaseNPbasedonasubstantivewordclasssystemwhichwasdevelopedcompletelyaccordingtogrammaticalfunctions.Thestudyshowsthatthesystem
3、cana7113%accuracyrate.Keywords:baseNP;functionmatching;combinatorypattern一基本名词短语及其识别方法在自然语言信息处理领域中,基本名词短语(baseNP)的识别和结构分析是基础性的研究课题,它的正确识别和分析对句法分析、机器翻译、信息检索以及文本分类都具有重要作用。(一)基本名词短语的界定[1]基本名词短语(baseNP)这一概念是Church在英语中首次提出的,他将英语中的baseNP定义为“简单的非嵌套的名词短语”,也就是说,一个baseNP内部不能再包含更小的名词短语。[收稿日期]2008-09
4、-27[作者简介]徐艳华,鲁东大学汉语言文学院讲师,博士,主要研究领域为现代汉语、计算语言学。2008年第1期徐艳华:基于语料库的基本名词短语研究·121·但是,这个定义并不能满足汉语语言信息处理的要求。例如:按照以上的定义“,信息检索理论”“企业承包合同”和“出口商品指数”等名词短语都不是baseNP,但是在语言信息处理领域,[2]这些名词短语都是非常重要的语言单位,因此张瑞霞、张蕾以知网中词性的划分为标准,给出汉语基本名词短语(以下简称baseNP)的形式化定义:(1)baseNP→baseNP+baseNP(2)baseNP→baseNP+名词
5、名动词(3)base
6、NP→限定性定语+baseNP(4)baseNP→限定性定语+名词
7、名动词(5)限定性定语→形容词短语
8、动词
9、(副词+动词)
10、名词
11、(名词+“的”)
12、(数词+量词)(6)形容词短语→(形容词+形容词短语)
13、(形容词+“的”+形容词短语)
14、(副词+形容词+形容词短语)
15、(副词+形容词+“的”+形容词短语)(7)形容词短语→形容词
16、(形容词+“的”)
17、(副词+形容词)
18、(副词+形容词+“的”)对于这个形式化定义,我们不妨简单举几例加以说明:baseNP~baseNPNBA联赛数据结构下岗职工一件衣服先进的设备对于未来的憧憬租赁公司信息爆炸太空旅行购买汽车维修电器出租房屋企业发
19、展规划汉语信息处理5位导师飞速发展的经济学习的压力(二)基本名词短语的识别方法近年来,基本名词短语的识别问题倍受研究者关注,不断出现新的研究方法与研究成果。赵军(1998)提出了一种基于转换的汉语基本名词短语识别模型,该模型的设计思想是:通过一个基于转换规则的文本转换机制,将识别baseNP的静态知识(表示基本名词短语句法组成的基本结构模板)和动态知识(表示基本名词短语出现的上下文环境特征的转换规则)结合起来,从而充分利用baseNP的内部组成结构模板和在上文环境中的分布特征进行识别。他用1万字的语料作测试,对文本中的基本名词短语进行识别,其正确率为8913%。赵军、黄昌
20、宁(1999)提出了用词语的潜在依存关系分析汉语baseNP结构的模型,即将依存语法知识融入概率模型中,使得baseNP结构分析在依存语法知识的指导下进行。他们考察的主要对象是n+n+n,考察的重点就是确定这个baseNP的定界问题,即中间的n是跟前面的n捆绑(左捆绑)还是跟后面的n捆绑(右捆绑),根据考察的500个baseNP的结果看,该模型可达到8817%的正确率。孙宏林(1997)根据经过分词和词性标注的语料库获取的14条规则,对什么条件下v和后面的n可以捆绑在一起进行了研究。其研究侧重于确定任意上下文中的一个特定v+n