词图搜索算法-模式识别

词图搜索算法-模式识别

ID:38271449

大小:187.13 KB

页数:4页

时间:2019-05-29

词图搜索算法-模式识别_第1页
词图搜索算法-模式识别_第2页
词图搜索算法-模式识别_第3页
词图搜索算法-模式识别_第4页
资源描述:

《词图搜索算法-模式识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第六届全国人机语音通讯学术会议,203-206页,2001年11月20-22日,深圳一种基于HTK的词图搜索算法罗春华,张继勇,郑方,徐明星清华大学计算机系人工智能与系统国家重点实验室语音技术中心springofcn@yahoo.com.cn后续的过程中利用Trigram对词图里的可能路径进行摘要分数重估,最后输出具有最大似然度的路径作为识别在连续语音识别中,为了能够在搜索的过程中实现更候选。有效的剪枝策略,必须充分应用语言模型提供的信本文将按照如下方式组织:在论文的第二部分,将介息。对于在一遍搜索过程中同时使用声学模型和语言绍利用复杂语言模型的词图搜索算法的

2、框架;基于该模型的搜索算法而言,虽然能够获得比较高的识别框架结构的词图重估算法将在第三部分给出;论文的率,但是耗时比较多。为此,本文实现了一种能够在第四部分为采用这种词图搜索算法的实验结果;相关后续处理过程中有效地利用Trigram语言模型和更复的结论将在论文的第五部分给出;论文的最后给出相杂语言模型信息的词图搜索算法。它是基于HTK平关的参考文献。台的。文中对词图的数据结构和词图的生成算法给出了非常详细的论述,基于给定词图的搜索算法也在文中给出。实验表明,词图搜索算法能够充分地利用语2.词图搜索算法的框架言模型提供的信息指导搜索而且速度很快。采用词图搜索算法

3、的语音识别系统的框架结构如下图所示:1.引言在语音识别的过程中,如果我们能够利用一些知识来指导搜索过程,一方面可以有效的提高搜索速度,另语音集成词图重词串一方面可以提高识别率。在HTK中搜索使用的是输入搜索估过程输出[1]TokenPassing算法。该算法由一个识别网络进行控制,识别网络的生成充分利用了词典和HMM模型提供的信息。在Tokenpassing算法中,Token表示网络中从时刻0扩展到时刻t的部分路径。时刻0,在每声学BigramTrigram个可能的开始结点上都有一个Token,随着时间的推移,它们沿着识别网络的弧进行传播,直到到达一个模型HM

4、M的退出状态。如果一个结点有几个出口,则该图1.采用词图搜索算法的连续语音识别系统的框架Token会被拷贝以保证多条路径能够并行的得到扩展。当Token沿着弧和结点进行传播时,它的对数似语音输入后,经过特征提取,首先经过集成搜索然度分数会加上相应的转移概率和输出概率。当(Integratedsearch)模块,这个过程利用声学模型来Token沿着网络进行传播时,它必须保留它的历史路产生声学候选,同时利用Bigram语言模型来剪枝,由的记录。历史记录保留的详细程度取决于识别输出该模块产生的词图(Wordgraph)被词图重估模块的需要,通常保留词边界的信息就能够

5、满足大多数应(Wordgraphrescoring)用来进行后处理,在这个过用的需要。程中可以充分地利用Trigram语言模型提供的信息,由于HTK是一个实验平台,因此它的算法没有考虑最后我们可以得到识别出来的中文词序列。到实际应用的需要。为了能够保证该算法的通用性,2.1.集成搜索模块它的数据结构设计得很复杂。一个典型的例子就是它的识别网络。对于汉语连续语音识别,通常词表的大该模块的主要功能是利用声学模型和Bigram语言模小为5-6万词,按照它的算法构造的网络非常庞型提供的信息来产生词候选,便于词图的生成。为了大,因此要想在它的上面使用Trigram语言模

6、型几乎能够进行上下文相关建模,我们选取了声母和韵母作是不可能的。为了能够建立一个实用的识别器,我们为语音识别基元,在此基础上,利用HTK提供的训在HTK的基础上,借鉴了它的一些好的思路,实现练工具HINIT,HREST和HEREST来训练TriIF模型了自己的识别器。通过Trigram的加入,取得了比较(请注意,这里的IF指的是声母或者韵母)。由于汉好的效果。我们算法的基本思路是首先在一遍搜索的语的常用词大约有50000多个,因此我们采用树型结过程中使用声学模型和Bigram语言模型来产生一些构来组织这些词,它可以有效的合并具有相同前缀的可能的词候选,利用这些

7、词候选来产生词图,然后在词。每个词的模型通过连接对应的TriIF模型来获得。如词“饱餐”由“b+ao”,“b-ao+c”,“ao-其中MAXGRAPHARC和MAXGRAPHNODE为两个c+an”,“c-an”组成,当然如果考虑上下文相关预先定义好的常量,分别表示词图所能拥有的弧的最[2](即Cross-word),则词的模型要考虑到它的前驱大数目和结点的最大数目。词的具体内容才能最终确定。Graphnode为记录词图中结点信息的数据结构,其具在搜索的过程中,充分利用了目前比较常用的一些剪体的表示形式为:枝技术,如声学剪枝、语言模型剪枝和直方图剪枝,·int

8、nodeIdx结点的索引同时还使用了两

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。