资源描述:
《基于受限汉语的数据库自然语言接口技术研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1000-9825/2002/13(04)0537-08©2002JournalofSoftware软件学报Vol.13,No.4基于受限汉语的数据库自然语言接口技术研究Ã112许龙飞,杨晓昀,唐世渭1(暨南大学计算机科学与技术系,广东广州510632);2(北京大学信息科学中心,北京100871)E-mail:txlf@jnu.edu.cn摘要:介绍了一种新的基于受限汉语的数据库自然语言接口NLCQI(naturallanguage(Chinese)queryinterface)的系统模型及设计框架
2、.给出系统实现中具有特色的多栈结构的中间语言以及以关联路径搜索方法实现的中间语言向SQL转换的策略.实验表明,该系统采用的非过程化汉语查询句表达方式较自然,对汉语句型的理解、处理能力有较大的改进.关键词:自然语言界面;受限汉语;自动分词;中间语言;数据库模型中图法分类号:TP311文献标识码:A数据库自然语言接口是自然语言理解与数据库技术结合的产物,近年来,作为AI中自然语言理解的智能接口技术而受到重视,尤其与汉语的手写体及语音识别的结合研究,具有很高的理论价值与广泛的应用前景.在该研究领域内,纵观近
3、年来国内所研制的多个系统,所采用的技术主要有基于数据库的E-R汉语理解模型、类关系代数逻辑式的中间语言转换、以条件为中心的句型匹配以及多语句组合模板等方法.在此基础上,[3]我们在文献[1,2]中提出一种新的基于受限汉语的数据库自然语言查询界面NLCQI(naturallanguage(Chinese)queryinterface),给出这种接口系统的模型框架、基本原理与设计思想.该模型的主要特点是:(1)采用了数据库技术、计算语言学与人工智能等多学科结合的新思路.近年来的研究实践表明,要想最终解决数
4、据库的汉语自然语言接口问题,靠纯语言学或纯数据库技术都是行不通的.为此,本系统让模型建立在受限汉语集合上,运用汉语自动分词技术,受限汉语文法是根据数据库汉语查询句中常用的词法与语法而建立的[1,2]一系列的语法、语义规则.并采用数据库E-R模型与其指称的数据库模型语义及背景知识结合的技术.与近[4~7]年来国内同类系统相比,在构思上有新的特色.(2)所输入的汉语查询句型比较符合中国普通用户的思维习惯和表达方式,本系统采用了完全非过程化的汉语自然语言方式,在表达形式上较为灵活与多样性,同一语义的查询语句
5、可以有多种不同的表达形式.(3)从汉语句型到SQL的中间语言形式都采用类关系代数形式的语义查询树,而在实现技术上采用了多[7]栈结构形式,既能准确地表达原查询句的语义,而且在形式上也更灵活,便于向SQL的自动转换.(4)提出了以关联路径搜索方法实现MQL到SQL的转换策略,解决了SQL中多层嵌套子查询的搜索难题.这在国内同类系统中尚未见到.[4]东南大学的CQI系统是国内首次研制成功的基于E-R模型的DB中文查询接口,与之相比,本系统在与计算语言学的结合研究、对E-R语义模型的理解以及系统对汉语的处理
6、能力方面(如对汉语句型修饰段的处理Ã收稿日期:1999-11-28;修改日期:2001-07-06基金项目:国家自然科学基金资助项目(69633020);北京大学视听觉信息处理国家重点实验室资助项目;暨南大学“211工程”资金资助项目作者简介:许龙飞(1946-),男,广东开平人,教授,主要研究领域为数据库系统,知识工程;杨晓昀(1974-),男,广东湛江人,硕士,助理工程师,主要研究领域为数据库应用系统开发技术;唐世渭(1939-),男,浙江镇海人,教授,博士生导师,主要研究领域为数据库与信息系统,
7、数据仓库技术.538JournalofSoftware软件学报2002,13(4)有更大的灵活性与适应性)已有了较大的改进.与中国人民大学和香港中文大学研制成功的著名的中文数据库[6]查询界面Chiql相比,也有自己的特色,本系统采用完全非过程化的汉语自然语言方式,表达方式更加自然,用户不必理解、记忆和选择多个语句模板.同时,克服了由于采用多语句执行方式而影响查询性能等不足.下面本文将在此基础上对系统模型的关键性技术的实现作深入研究,并对涉及系统实用性的重要技术——应用领域的可移植性作有益的探讨.1系
8、统的模型及总体设计NLCQI所采用的模型是数据库基于E-R语义的汉语关键词理解模型∑,是一个八元组,即∑=(S,VN,VT,RS,P,S,S′,Wd).其中S为文法开始符号,VT为汉语基本词集,VN为汉语词类复合范畴(如短语等),P为语义规则式集合(有限),RS为汉语词的语义指称规则,S为汉语修饰词的组词规则集,S′为深层语义映射规则集,Wd为汉语理解的背景词典(包括通用词典与专用词典),详细意义见文献[1,2].在系统的实现中,对原设计的汉语查询树生成