欢迎来到天天文库
浏览记录
ID:18449273
大小:108.50 KB
页数:14页
时间:2018-09-18
《自然语言处理研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、计算语言学和自然语言信息处理研究和应用综述目录一概述二语言信息处理的基础研究2.1面向信息处理应用的语言研究2.2关于语言资源建设的专题研究2.2.1语料的标注2.2.2语料的分析和处理2.2.3用于语言资源建设的字表、词表和标准、规范。2.3研究中的理性主义和经验主义方法三应用性的研究和实用系统的研制3.1机器翻译3.1.1基于规则的方法和基于语料库的方法3.1.2机器翻译中的专题研究3.1.3应用型机器翻译系统的研制3.2文本信息处理四语言资源的建设4.1语料库4.2语言知识库4.3基于语料库的语言分析方法五主要学术会议和期刊、论
2、著六参考文献计算语言学和自然语言信息处理研究和应用综述一、概述计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(LanguageUnderstanding)和自动生成(LanguageGeneration)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。计算语言学的研究也像其他学科一样,有科学研究与技术研究两个层次。科学研究的目的是发现语言的内在规律、探索语言
3、理解和生成的计算方法、建设语言信息处理的基础资源;而技术研究则借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。自然语言信息处理的应用目标是使人与计算机之间用自然语言进行交流。具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。然
4、而,由于学科理论发展的局限和汉语本身的复杂性,目前我国计算语言学理论和方法的研究还不能为开发汉语信息处理应用系统提供足够的支持。多年来国内计算语言学和自然语言处理学科发展的特点之一是,应用型研究和实用系统开发的目标比较明确,投入相对较多,也取得了一些成果;而基础理论和方法的研究则相对薄弱。1998年-2002年期间的研究情况和发展态势依然如此。在本文上述的各种应用目标中,研究力量比较集中的项目有:文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译,还有文本信息提取和过滤。另外,语言资源的建设和基于语料库的语言分析方法也
5、受到了格外关注,取得了比较快的进展。下面先简要叙述计算语言学和语言信息处理领域有代表性的基础研究,再介绍面向应用的研究和实用系统的研制,然后谈谈语言资源的建设,最后介绍有关的学术会议和期刊、论著。这些工作都以书面语为研究对象,针对口语的研究将作为语音识别与合成专题另文介绍。二语言信息处理的基础研究作为《中国语言学年鉴》当中一个分支学科的内容,这里主要叙述的是语言信息处理领域里与语言研究直接有关的专题,或者叫作面向信息处理应用的语言研究。不包括语言计算处理方法的研究和以技术为主的工作,例如统计意义下的建模方法、机器学习的算法、文字识别与
6、汉字输入技术,等等。2.1面向信息处理应用的语言研究在计算语言学和语言信息处理学界,关于语言问题的研究往往有自上而下和自下而上两种动机。前者关心如何用语言学的理论解释某种语言(比如汉语)的现象,后者注重解决语言工程和应用实践中提出的实际问题。自上而下的典型代表是在形式语义学的理论框架下研究汉语的语义问题,也叫做逻辑语义方法[8][12]。这种方法用内涵逻辑语义模型来分析汉语词语的构造、解释汉语词语的意义。其中的基本问题是,用形式化的方式描述词语、词语所表示的概念、词语指称的实体以及三者之间的关联关系,然后应用模型论方法对汉语语句的结构
7、形式进行语义解释。这种观点是我国的计算机科学家借鉴国外对印欧语言的研究成果,结合汉语的实际提出来的,在词语的语义理解、歧义解读、短语构造等方面,都有个案分析的尝试。然而要想在汉语理解研究中得到系统性的结果,这种方法还有许多困难,其中之一是,它要求结构形式上的复合运算与语义上的组合运算具有同构关系,因此需要先定义一个形式化的汉语语法,才能对应地定义语义模型和语义计算规则,而目前我们还没有办法找到这样的汉语语法理论。对于句法分析和语义分析的先后关系,《语义指向的形式模型研究》[8]则持另外一种观点,认为在很多情况下,语义分析不一定必须经过
8、句法分析。这篇文章根据Frege的组合性原则,提出了一个形式模型,描述词或词组的语义与其所处语境的语义之间的制约关系,把语义指向定义为:用类型化的结构特征描述角色的语义,用特征结构间的匹配和偏序关系确定语义指向,以实现完
此文档下载收益归作者所有