欢迎来到天天文库
浏览记录
ID:12040061
大小:42.50 KB
页数:10页
时间:2018-07-15
《信息处理用现代汉语语义分析的理论与方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、信息处理用现代汉语语义分析的理论与方法①张普北京语言学院 编者按:汉语信息处理在字处理、词处理两个方面已经陆续取得了相对突破,目前,句处理阶段的苗头已经开始。作为知识工程或智能化系统已经进入了实质性的知识获取或智能模拟阶段。在这一阶段,将大力加强句法知识、语义知识、语用知识的基础理论研究,这些基础研究的课题都是语言信息处理领域高难度的前沿课题,已为国内外有关专家瞩目。其中,句法知识、语义知识的获取是当前的重点,而语义知识又是二者中的难点。句处理及其有关基础理论的研究已正式列入我国八五重点科研项目。由机电部计算机与微电子发展研究中心(C
2、CID)牵头,由中国中文信息学会理事长陈力为作为高级顾问,北京大学、清华大学、河南财经学院、中国人民大学、北京语言学院、东北工学院、山西大学、北京信息工程学院等十余个单位的数十名计算机科学、语言学的著名专家教授及一批优秀的中青年研究人员已经组成了阵容强大的菌关队伍。本期发表北京语言学院张普同志的论文《信息处理用现代汉语语义分析的理论与方法》。今后还将继续发表有关语义研究方面的论文,希望就此引起讨论。一、现代汉语语义分析在语言信息处理中的地位语言信息处理是用计算机来处理自然语言,它包括处理世界各民族的语言。本文所论述的语义问题主要涉及汉
3、语信息处理,并且主要指现代汉语的信息处理。汉语信息处理是“用计算机对汉语(包括书面和口语两个方面)的音、形、义等信息进行处理,有时又称中文信息处理。”②自七十年代未期以来,汉语信息处理进入大发展的时期,到目前为止,大约经历了三个阶段:字处理阶段、词处理阶段、句处理阶段。进入句处理,才真正全面地触及了语言规律的各个层次,人微言轻知识工程或智能化系统才真正开始了实质化的知识获取或智能模拟。没有字处理或词处理作为基础和手段,这个实质化的进程只能空谈,反过来,句处理和智能化的提高也将促使字处理和词处理抽更高级的水平发展。在字处理阶段我们主要解
4、决了汉字在计算机上的输入输出问题,同时推进了语音的输入和输出。汉字编码、编码评测、字频统计、《信息交换用汉字编码字符集》的制定、点阵汉字库的标准制定等都属于这一阶段的研究工作。在词处理阶段,我们主要解决了不实行分词连写的汉语的词处理手段问题,因为人微言轻语言的基础毕竟是词而不是“字”。词频统计、通用词库、电子词典、自动分词等都属于这一阶段的研究工作。在句处理阶段,我们将着重解决汉语句子的处理问题,其核心是句子的理解问题。首先是单句的理解,进一步是复句的理解,以便为将来更高层次伯篇章理解打下基础。句子的理解不仅将为机器翻译、自动标引、自
5、动文摘、自动指挥、人机对话、自然语言接口等需要高智能的应用系统打下基础,也将促使字处理、词处理阶段的一些应用软件推出更高级的版本,如精度更高的自动分词、汉字自动识别、语音识别与合成系统等。汉字键盘输入系统也将推出对人更加友好的版本。为了解决句子的理解问题,计算机必须获取句法知识(句型知识、句法规则)、语义知识和语用知识。没有语义知识根本谈不上理解,没有语用知识,理解系统难于进一步提高精度,甚至可能产生误解。在处理语义和语用知识的同时,我们不可避免地还要触及“语境”和“情景”的问题。句法和语义的研究成为句处理阶段能否取得突破的关键,语义
6、研究是这两个关键研究中的难点。我们可以用下述框图表达上述的关系:(见图一) 二、人脑语义系统的形成1.民族语言的语义系统的形成任何一种民族语言的语义系统都是该民族的成员在长期的生活、生产、社会实践活动中逐步积累,约定俗成的。这个语义系统就是他们对客观世界(包括自身活动)的总认识,这个认识是不断扩展和深化的。例如:汉族人对客观世界的一种长角、偶蹄的动物很早就有了认识,逐步认识到可以取奶、食肉、剥皮、役使、耕田等等,于是归纳、抽象后形成了一种概念,并且用一个声音(niu)、一种符号“牛”来代表。在役使中发现牛很犟,有时很难驾驭,而一些人的
7、性格有时表现的有很象牛,于是“牛”又形成了一种比喻概念:“固执和骄傲”。例如:“牛气”、“牛脾气”等。这个过程可用下图表示: 人类的认识过程是不断深化的,最先认识的是简单的、具体的事物,逐步认识那些复杂的、抽象的事物。随着人类社会的复杂化和人类的智能的提高,语义系统也越来越庞大、复杂、精密,这个系统构成了一个静态语义网。不同民族语言的静态语义网既有共性,也有差别,这个问题本文不细论。2.个人头脑中语义系统的形成:任何一种民族语言的语义系统或静态语义网都是一种客观存在,它的形成是群体认识的历史的积淀,这种认识的积累构成了语义知识。我们每
8、个人头脑中也贮存着一个(母语)静态语义网,它来自民族语言的静态语义网,这样我们才有语义的共识,才能相互交际。这个静态语义网是通过学习获取的,它是民族语言静态语义网的一个子集,由于受教育的水平不一样,严格地说,实际上没有在
此文档下载收益归作者所有