浅谈新的句法标注模型

浅谈新的句法标注模型

ID:10348196

大小:58.50 KB

页数:6页

时间:2018-07-06

浅谈新的句法标注模型_第1页
浅谈新的句法标注模型_第2页
浅谈新的句法标注模型_第3页
浅谈新的句法标注模型_第4页
浅谈新的句法标注模型_第5页
资源描述:

《浅谈新的句法标注模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅谈新的句法标注模型摘要:由于自然语言的语义存在不确定性,形式化很困难,因此语义处理成为自然语言处理的瓶颈所在。基于大规模标注语料库的语义处理已经成为发展趋势,语料标注本质上就是语言知识(包括语义)形式化。现有句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的句法标注模型,还存在一些局限性。文章在现有句法标注模型的基础上结合认知语法(CG)的有关理论提出改进思路,以探索新的句法标注模型。关键词:语料库语言学 语义处理 句法标注模型    人类社会发展的基本轨迹是:原始社会—农业社会—工业社会—信息社会。人工智能的目标是用计算机模拟人的智能,以

2、最大限度地解放和延伸人的智能,无疑是信息社会的制高点。语言是人思维的物质外壳,人不可能离开语言而具备真正属于人的高级智能。因此,模拟人类语言智能的自然语言处理无疑是人工智能的重要研究方向。然而,迄今为止的研究表明,在可以预见的将来,语义处理将是自然语言处理的瓶颈所在。原因是语义十分复杂,而基于现有计算机软硬件的自然语言处理要求语义形式化。解决这一问题的根本之道是:探索新的句法标注模型,进行大规模的语义标注,基于语料库进行语义知识获取和自然语言处理。  一、句法标注模型    语言的复杂性在于语言与认识的关系。语言具有意义,而意义是入对主客观世界的认识结果。主客观

3、世界的复杂性决定了意义的复杂性,进一步决定了语言的复杂性。语言本身又可以视为人的主客观世界中的一部分,因此语言研究是一种特殊的认识活动,是人对语言的认识。由此可见,语言离不开认识。人对主客观世界的认识可以如此描述:认识主体借助认识工具按照认识方法处理认识对象获得认识结果。认识是由多种认识因素(主体、工具、方法、对象)共同作用的活动,认识结果是这一活动的产物,被多种认识因素共同决定,任何一种认识因素的改变必然导致认识结果出现或大或小的差异。显然,认识结果与认识对象不能等同,是认识主体对认识对象的选择性反映,认识具有主观能动性。从这个意义上讲。认识不可能也不应该去被

4、动地还原认识对象,而是从符合主体目的性出发,力求简单有效地描述和预测认识对象。借用模型的概念,认识结果就是认识对象的模型(model),认识就是建立认识对象的模型,简称建模(modeling)。这是一种实用主义认识观。  模型一般分为心理模型(psychologicalmodel)、数学模型(mathematicalmodel)和物理模型(physicalmodel)。心理模型是认识对象在人认识中的定性关系,是数学模型的基础;数学模型是认识对象在人认识中的定量关系,是物理模型的基础;物理模型是人借助特定材料和工具按照认识对象的数学模型实现的物质结构。传统意义上的

5、建模主要指建立数学模型和物理模型,一般意义上的建模还包括建立心理模型。人的认识能力是有限的,表现在:人不能建立任意认识对象的心理模型,也不能建立任意心理模型的数学模型,也不能建立任意数学模型的物理模型。由于具有明确的实用主义特点,建模在理工科领域大行其道,在文科领域也逐渐受到青睐。人类将二进制数学模型成功实现为晶体管物理模型,并开发出越来越复杂和先进的计算机软件和硬件,从而进入信息时代。20世纪以来一些主要或次要的语言理论都或多或少应用了数学模型,特别是一些面向语言计算的语言理论。随着计算机技术的飞速发展,人们对计算机自动或辅助处理语言信息的需求越来越大。但计算

6、机的根本缺陷在于,凡是不能建立数学模型的信息都无法处理。传统语言理论往往只在心理模型层面定性研究,无法满足这一需要。因此有必要引入数学模型研究语言,称为语言数学模型,简称语言模型(1anguagemodel)。统计语言模型(sta-tisticallanguagemodel)就是一个成功的例子。但统计语言模型的性能取决于训练语料的规模和质量。目前,由于语料的不断积累和计算机技术的不断进步,语料规模已不成问题,语料中包含语言知识的数量和质量才是关键。  计算机的语言知识主要于人。将语料中包含的语言知识标注出来,有助于计算机获得更丰富、更有价值的语言知识,从而提高语

7、言处理水平,这就是语料标注(corpustagging)。一般认为主要包括词汇标注(1exicaltagging,分词、词结构标注、词性标注、词义标注等)、句法标注(syntaxtagging,语法树标注、语义树标注等)、语篇标注(discoursetagging,语体标注、领域标注等)等内容。经过标注的语料还可以用于语言学研究、语言教学、语言测试、词典编撰等诸多理论研究和实践应用领域,越来越受到人们重视,并形成一门新兴学科——语料库语言学(corpuslinguistics)。目前,相对句法标注,词汇标注有更成熟的规范、准确率更高的技术和更大的标注规模。句法标

8、注的主要困难在于,没有一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。