资源描述:
《基于统计与规则相结合的汉语计算语言模型 及其在语音识别中的应用①new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、高技术通讯 1998141基于统计与规则相结合的汉语计算语言模型①及其在语音识别中的应用(1997年6月5日收到,9月30日修回)关 毅② 王晓龙 张 凯(哈尔滨工业大学计算机系 哈尔滨150001)摘 要把基于统计的语料概率统计方法与基于规则的自然语言理解方法结合起来,提出了一种新的汉语计算语言模型,并把该模型应用于语音识别后处理模块中,取得了较理想的结果。关键词:语言模型,短语规则,N元统计文法,语音识别一、引 言 建造计算语言模型是为了用计算的方法总结、获取和探索自然语言的规律。由于自然语言极其丰富和具有不确定性,而且其载体(如语音)会带来信息噪声和
2、信息损失,使得自然语言的模型化工作非常复杂。通常有基于规则的自然语言理解方法和基于统计的语料概率统计方法。这两种方法各有利弊。近年来,基于统计的方法因处理语言的覆盖面广,可以经训练而处理新出现的语言现象,处理速度较快,因而获得了越来越高度的重视,成为近年来人们重点研究的对象。统计语言模型在语音识别等实际应用中获得了巨大的成功,使得大词表语音识别系统接近了实用化的阶段。为了进一步提高系统的智能水平,提高系统的识别率,我们在统计语言模型的基础上加入了一些规则,提出了一种基于统计和规则相结合的计算语言模型,并将该模型应用于语音识别系统的后处理模块中,使得涵盖六万词条的
3、非特定人孤立词的语音识别系统的准确率较单独使用词的TRIGRAM模型有了进一步的提高。二、计算语言模型 建立现代汉语的计算语言模型,主要有基于语法分析的短语结构语法分析方法与基于大规模语料库统计的统计方法两种。分析方法是在对汉语词汇分类的基础上,运用自然语言理解的词法、句法、语义、语用分析理解技术对同音字(词)进行辨析。这类系统一般只能处理有限的词汇和有限的句型,在语法的表达、获取以及系统维护等方面都遇到了很大困难。在最近的十年间通过统计建立汉语N元文法统计模型的方法渐渐成为汉语计算语言学的一个研究方向。统计方法的主要特点是语言处理的覆盖面更广,可实现高效实时
4、的处理。缺点是它仅仅考虑了语言的上下文关系,而忽略了语言的结构化特征。因而对于汉语语言中的深度递归现象和远距离约束关系无能为力。我们认为汉语和其它自然语言一样是结构化的语言,单词由短语结合规则而形成层次结构是结构化语言的必要特征,但是,单纯依靠规则由于规则的二义性、不完备性及互斥性,无法形成①863计划资助项目(863230620320221)。②男,1970年生,博士;研究方向:自然语言理解;联系人—16—©1995-2004TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.关毅等:基于统计与规则相结合的
5、汉语计算语言模型及其在语音识别中的应用完整的语法分析树,而往往形成短语结构分析森林。此时,如果我们能够运用统计关联信息将各局部的短语分析树联系起来,仍然可以得到统计意义上最佳的语法分析效果。这样,根据短语形成规则生成短语,再通过上下文同现关系约束短语之间的搭配,综合了基于规则匹配的语法分析方法和基于N元统计文法的上下文同现分析方法,我们建造了融规则与统计为一体的计算语言模型,其基本思想是:如果与某规则匹配,则使用规则,形成短语。统计信息用于匹配规则的多候选同音字的择优处理以及短语间搭配择优处理;如果无规则可以匹配,则直接使用统计信息,这是一种扩充了短语结合规则的
6、马尔可夫汉语计算语言模型。为建立扩充了短语结合规则的可尔可夫汉语计算语言模型,我们首先建立了规则库,并建立了对规则库进行增加规则、删除规则、测试规则等操作的工具箱,以便动态地调节当前规则库的内容。规则库的建立需考虑以下因素:(1)规则库的规模。应视系统对实时性的要求而定,规则匹配的效率问题是系统效率的瓶颈。由于需利用规则库中的短语归约规则生成符合语法规则的新的元素加入到统计排歧的侯选队列中,过多的规则不但会大大加重规则匹配生成新元素模块的工作量,而且使统计排歧模块的工作量成倍增长。因此,规则库的规模不宜过大。(2)规则的性质。本规则库中的规则是形如A1+A2+⋯
7、+An->B的短语归约规则。应选择确定性好,长度一般不超过四元的规则。当然,一条规则对于系统整体的影响体现在对音字转换正确率的提高与否以及对系统的效率的影响两个方面上,必须对两者进行折中考虑。由于规则仅仅反应了语言学家对于汉语规律的认识,而无法真实地反应它是否有助于正确的音字转换,对于任一条规则,必须在实际应用中加以检验以确认其存在的价值。一条“正确”的规则可能大大加大系统的开销而对提高系统的音字转换正确率无所帮助。如规则Np+Np->Np,这里Np表示名词(名词短语),由于名词在词典中的数目最多,用此规则修饰的上下文对于区别歧义性作用非常有限。因此,必须从规则
8、库中剔除这样的规则。总之