语音识别超级心得

语音识别超级心得

ID:45208724

大小:575.50 KB

页数:38页

时间:2019-11-10

语音识别超级心得_第1页
语音识别超级心得_第2页
语音识别超级心得_第3页
语音识别超级心得_第4页
语音识别超级心得_第5页
资源描述:

《语音识别超级心得》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Ⅳ语音识别(78)关于HMM训练的几点考虑克服训练数据的不足HMM的模型含有很多待估计的参数,为得到满意的模型,必须要有很多训练数据,这在实际中很难办到。在训练数据少时,一些出现次数很少的观察值没有包含在整个训练数据中,这样训练出的HMM参数中就会有不少为零的概率值。需要对训练好的模型进行相应的处理。Ⅳ语音识别(79)常用的方法是将一个训练较充分,但细节较差的模型与一个训练虽不充分,但含有细节的模型进行混合。前一个模型可在HMM模型结构中将有些状态转移概率及观察输出概率相近的进行“捆绑”,从而减少模型参数。使用相同的训练数据就可以对这种“捆绑”后的模型进行较充分的训练。Ⅳ语音识别(80)合

2、并两个HMM的问题可以表示为其中为结果模型,和为待合并的两个模型,分别代表前面提到的两种类型的模型。为合并比例系数。关键是合并权值的估计。一种方法是人工选择权值,这种方法的局限很明显:过分依赖于人的经验判断,且工作量大。Ⅳ语音识别(81)删插(DeletedInterpolation)平滑法设和为和模型中状态j对应的观察值概率,为中状态j对应的观察值概率,那么有状态j被三个状态所取代没有输出观察值概率输出观察值概率输出观察值概率空转移估计权值的问题转化为一个HMM训练问题,可相应估计出来。Ⅳ语音识别(82)4.4大词汇量连续语音识别技术语音识别研究中意义最重大、应用成果最丰富,同时最具有挑

3、战性的研究课题。大词汇量非特定人的连续语音识别系统的词误识率大体为小词汇量、特定人的孤立词识别系统词误识率的50倍左右。特有的问题:无法切分,无法确定单词间的边界位置。发音变化:连续语音的发音比孤立词发音更随便,受协同发音的影响也更为严重。Ⅳ语音识别(83)上个世纪90年代初期已经取得了若干突破性的进展。这一进展依赖于在识别系统中采用HMM算法的统一框架,以及非常细致的将声学、语音学和语言学的知识引入,并改善这个框架。在大词汇量语音识别系统中,一段语音信号的特征矢量序列为该特征矢量序列可能包含一个词序列为Ⅳ语音识别(84)按贝叶斯准则,那么语音识别的任务为,找到对应观察序列O的最可能的词序

4、列要找到最可能的词序列,必须使上式右侧两项的乘积最大。第一项由语言模型决定,第二项由声学模型决定。Ⅳ语音识别(85)在实现时声学和语言学模型结合在一个框架中,训练时单独训练。现在的统一做法是将整个识别系统分为三层:声学—语音层、词层和句法层。Ⅳ语音识别(86)是识别系统的底层,它接受输入语音,并以一种“子词”单位作为其识别输出,每个子词单位对应一套HMM结构和参数。词层规定词汇表中每个词是由什么音素—音子串接而成的。句法层中规定词按照什么规则组合成句子。Ⅳ语音识别(87)这样,从状态出发逐层扩大到音子、词、句子。每一个句子包含许多状态的复杂的状态图,该句子就是用由所有状态形成的结构、状态之

5、间的转移概率,以及每个转移弧产生某个特征输出的概率来描述的。对于特定的词表和句法,所有可能出现的句子构成了一个更大的状态图。在完成识别任务时,要根据一个输入语音特征矢量序列来确定一个最可能的句子。需要在这个大的状态图中搜索一条路经,该路径产生上述特征矢量的概率最大,由路径可以进一步确定句子中的每一个词。Ⅳ语音识别(88)基于子词单元的连续语音识别系统总体框图Ⅳ语音识别(89)4.4.1声学模型(1)基本声学单元的选择以词为基本单元建立模型不合理,造成大量不必要的冗余存储和计算。因此一般采用比词小的子词识别基元,如音节、半音节、音素等。一般来说,声学单元越小,其数量也就越少,训练模型的工作量

6、也就越小;但单元越小,对上下文的敏感性越大,越容易受到前后相邻的影响而产生变异,因此其类型设计和训练样本的采集更困难。Ⅳ语音识别(90)(2)如何由子词单元构成词在词层中应有一部字典来规定词表中每一个词是用哪些子词单元以何种方式构筑而成的。最简单实用的方案是每个词用若干子词单元串接而成。每个词的发音可能有多种变化方式,在子词串接时,必须有所体现。替换:即词中的某个音子可能被用其它相似而略有差异的子词单元所替换。插入和删除:词中有时增加了一个不是本词成分的子词单元,有时又将本词成分中的某个子词删除。Ⅳ语音识别(91)解决方案方案1:每一个词建立多套子词单元串接规则。方案2:将子词单元构成词的

7、规则用一个网络图来描述。可以相互替换的子词单元可选择的子词单元Ⅳ语音识别(92)(3)基于子词单元的HMM训练子词单元的HMM一般采用从左到右的结构,状态数固定为2到4个。在语音段中,子词太短,无法精确标出语音的边界。训练时,用一种很粗糙的方法进行初始分段,例如等长分段,形成初始模型。已知句子内容,因此可将子词模型串接成句子,然后用分段K均值算法多次迭代,对各子词模型进行重估。最终会自动收敛于一个最佳模型估计,同时达到合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。