欢迎来到天天文库
浏览记录
ID:6081676
大小:38.00 KB
页数:5页
时间:2018-01-02
《语言系统国内外发展概况》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、语言系统国内外发展概况△国家科技部中药基础数据库项目课题组尹爱宁张汝恩随着信息技术的发展,21世纪将逐步形成了全球范围内数字化系统。信息专业性领域限定的弱化,促使各行业信息专业化程度有明显上升趋势。由此,各行业对于信息技术的需求与依赖更加突出。为满足行业信息化的发展,信息标准化与信息基础性研究成为行业的焦点。如何用智能化的手段处理海量信息(包括文字、图像、语音等)已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是21世纪的重要科研方向。重点解决:数据发掘、文本挖掘、知识发现、Internet网上海量信息的智能化检索和网上软件机器人等。为了实现数据挖掘与知识的发现,信
2、息技术的普及化与自然化是必备的。如何建立自然人机界面与和谐的人机环境,对于计算机技术与自然语言的处理和专家支持系统都提出了更高的要求。因而建立语言系统,搭建语言系统支撑平台,是完成自然语言处理的关键。目前,在信息技术竞争中,已将自然语言处理与本体论语言系统作为重点。1.自然语言系统:自然语言是指人们日常生活中所使用的语言,如汉语、英语等,它是千百年来在社会生活中自然形成的语言。计算机的程序设计语言如PASCAL、C等则是由人工设计而成的语言,故称为"形式语言"。自然语言处理(naturallanguageprocessing,简称NLP)也称为自然语言理解,是语言信息处理的一个重要分支。所谓语
3、言信息处理,在我国就是中文信息处理。它是指用计算机对包括汉语(字)的形、音、义等信息及词、句子。篇章的输入、输出、存储和识别、分析。理解、生成等多方面的加工处理。其中,自然语言处理侧重于研究计算机对于句子、篇章的处理。计算机要理解和处理自然语言,必须像人一样具有词法、句法、语义和语用等6个层次的知识。它们是:①语音学层次,是关于对声音的识别、理解与合成;②形态学层次,涉及对各种词形和词的可识别部分的处理,如前、后缀、复合词等;③词汇学层次,其重点是对全词操作和词汇系统的控制;④句法层次,它与语言结构单元的鉴别有关,具体而言就是对输入的单词序列进行分析,看它们能否构成合法句子,如果能给出相应的合
4、法句子结构;⑤语义层次,相对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、句子、句群)所包含的意义及其在语言使用过程中所产生的意义;⑥语用学层次,这是△国家科技部科技基础性工作专项资金项目(2001DEA30039)5对涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。由于自然语言处理侧重于句子、篇章,因而句法分析、语义分析、语用分析3方面便构成了自然语言处理研究内容的基础部分。自然语言处理研究在电子计算机问世之初就开始了,并于50年代初开展了机器翻译试验。到了60年代乔姆斯基的转换生成语法得到广泛的认可,生成语法的核心是短语结构规则,分析句子结构的过程就是利用规
5、则自顶向下或自底向上的句法树生成过程国外在1963年就建成了早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,比国外起步晚了17年。八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了更多的重视,"自然语言理解和人机接口"列入了新一代计算机的研制规划,研究单位增多了,研究队伍也壮大了。中国科学院声学研究所、清华大学等单位成立了自然语言理解处理实验室。由于汉字系统的特殊性,因而对自然语言处理的国内处有着很大的差异。英语有26个字母;中文44908个汉字(根据《中华大字典》)。英语起源于5世纪,有一千五百年历史,《牛津英语词典》,收词四十万多
6、条。汉语六千多年历史,《中山大词典》,收词六十多万条,比英语多50%。因此实现自然语言的处理需求支撑条件之一是语言系统建设。2.语言系统:语言系统被认为是知识工程的一种技术。以往构造知识库的技术是局限性的。直到最近,一个新的基本知识模型的技术出现了。例如欧州的KADS项目(wielinga,1983)、美国的PROTEGE项目,日本的MULTIS项目,都来源于(clancey1985)最新的知识工程化技巧,来自于任务本体(taskontology)的想法。任务本体(taskontology)是作为使用词汇和概念构造知识工程系统单元的理论。因而语言系统建立被称为本体论。On本体论是一个哲学上的概
7、念,用于描述事物的本质。在近一、二十年来,本体论已被计算机领域所采用,用于知识表达、知识共享及重用。许多学科和研究都在使用“本体”这个术语,但存在不同的定义。在工程研究中,从知识共享的角度来说,Ontology作为一种概念化的说明,采用框架系统对客观存在的概念和关系的描述。它是通用意义上的“概念定义集”,是关于“种类”(kind)和“关系”的词汇表。这种词汇表,是在各种事务代理人之间交换意见时所用
此文档下载收益归作者所有