资源描述:
《中文数据库自然语言接口(NLIDB)技术调研》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中文数据库自然语言接口技术调研张文斌2010-07-05提纲研究现状规则流派统计流派总结思考提纲研究现状规则流派统计流派总结思考国外研究现状国外数据库自然语言接口(NLIDB)的研究可追溯到20世纪60年代,80年代最为活跃进入20世纪九十年代,研究热度减弱出现了许多试验性和商用系统如微软的EnglishQuery,BIM的LOQUI,IBM的LANGUAGEACCESS等在NLIDB的可用性和可移植性研究中都取得了很大的进展国内研究现状中文NLIDB的研究始于20世纪70年代末期20世纪90年代出现了许多实验系统或模型由于中文的特殊性,
2、一些国外的理论不能直接移植过来总体来说,在理论和技术上都取得了一些进步,但研究进展缓慢,且不够系统,多属摸索性工作,尚未出现比较完善的理论和技术中文NLIDB系统概览中文数据库自然语言查询系统NChiql人民大学,孟小峰等基于受限汉语的数据库自然语言接口NLCQI暨南大学,许龙飞等基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL北京大学,崔宗军等数据库汉语查询接口WTCDIS北京信息工程学院,李保利等主流技术以词汇驱动,句法语义处理一体化主要步骤词法分析语法分析语义分析生成SQL语句提纲研究现状规则流派统计流派总结思考
3、规则流派的特征基于规则人工总结文法、转换规则受限汉语规则流派的系统NChiqlNLCQIRChiQLWTCDISRChiQL模型简介北京大学的崔宗军、唐世渭、杨冬青论文基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究[J].中文信息学报,2000,(04)基于ER模型和受限汉语的数据库中文查询语言研究[J].中文信息学报,2001,(04).RChiQL系统结构及流程图RChiQL模型基于受限汉语和ER模型的数据库查询语言模型RChiQL是一个六元组RChiQL=(RCZ,RCW,RCS,RCWC,RCYY,ER-Mod
4、el)其中RCZ是受限汉语字典,RCW是受限汉语词典,RCS是受限汉语语法词典,RCWC是受限汉语搭配词典,RCYY是受限汉语语义规则词典,ER-Model是ER语义模型。词法分析基于数据库ER语义的全匹配算法采用长词优先、短词等待的完全匹配策略,保证发现所有的切分歧义效率不如最大匹配法,但在实践中可行例子输入“列出把乒乓球拍卖给北京工程的上海或深圳公司”输出I.“列出/把/乒乓球/拍/卖/给/北京/工程/的/上海/或/深圳/公司”II.“列出/把/乒乓球拍/卖/给/北京/工程/的/上海/或/深圳/公司”III.“列出/把/乒乓球/拍卖/
5、给/北京/工程/的/上海/或/深圳/公司”语法分析RChiQL中的文法分析子系统G=(Vn,Vt,S,P,Y,A)Vn=Vns∪Vng;Vns为ER语义符号集合,如E表示实体,A表示属性等;Vng为现代汉语有关文法符号集合,如D表示助词;Vt=受限汉语词典;S为开始符号;P={〈α→β,γ〉};α∈Vn,β∈[Vn∪Vt]*;γ={ξ},为语义搭配集合,其中ξ为短语中心词序列;Y={〈δ,ε,ζ〉};δ,ε为歧义短语文法,ζ为优先系数;A为文法分析算法。语法分析受限汉语查询句必须符合三段式祈使句〈查询动词〉〈修饰短语〉〈目标短语〉ER语义
6、特征文法规则研究了一千多个受限汉语查询句的基础上总结提炼而出语义分析将语法分析树转换为表达查询句语义的中间语言语义分析子系统包括语义规则库ER语义库的建立和维护工具语义分析算法遇到系统不能处理的情况时,交互模块要给出ER模型下的歧义语义关系图,用户选择出正确语义,系统记录并完成处理生成SQL语句SQL语句生成子系统主要参考ER模型、数据库模式及各成分之间的映射关系并依据中间语言到SQL语句的格式转换规则把中间语言转换为当前DBMS能够执行的SQL语句提纲研究现状规则流派统计流派总结思考统计流派陈力在《中文信息处理丛书》序言指出:“汉语的语
7、法尚未形成规范化,而且人们习惯于非规范化的语法”介绍一种方法基于查询语义的数据库中文界面研究中科院计算所,张凯等全国第七届计算语言学联合学术会议,2003词法分析分词词典词链对词标记类型和辅助信息实体名E,属性名A,属性值Va,查询动词Vq等等请/列出/广州/的/供应商/为/上海/的/工程/提供/的/零件列出-广州-供应商-上海-工程-提供-零件可能查询语义的生成查询目标的生成三段式:查询动词+查询条件+目标短语目标短语模式查询实体(如零件)查询实体+属性组(如零件的零件号和零件名)查询条件的生成以属性值为核心语义结构及其与SQL的转换语
8、义结构是一种中间表示语义结构表示查询目标表名,列名条件的数组,条件信息包括表名、属性名、比较符、属性值注意统计涉及的表名,并保证在ER图上的连通性填写连接属性条件语义可能性计算考虑因素词链在查