欢迎来到天天文库
浏览记录
ID:53053664
大小:1.08 MB
页数:13页
时间:2020-04-16
《毕业设计中期答辩PPT.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、毕业论文中期工作汇报刘迪源2012.4.22混淆网络在语音检索中的应用完成主要工作:1.语音信号处理知识学习《语音信号处理》《SpokenLanguageProcessing》2.熟悉语音识别基本流程《perl语言入门》结合HTK工具,完成WSJ0_baseline中语音识别各项操作3.分析语音识别输出结果文件——lattice和混淆网络(CN)4.结合SRILM工程,完成混淆网络生成程序1.语音信号处理知识学习预处理特征提取模式匹配参考模板判决语音输入识别训练识别结果图10-1语音识别系统框图语言模型学习语言模型基于规则LM基于统计LM短语结构文法上下文相关文法
2、上下文无关文法(CFG)正则文法PCFGn-gramKATZSMOOTHINGKNESER-NEYSMOOTHINGClassn-grams2.熟悉语音识别基本流程按照科大讯飞提供的语音识别Easytraining步骤,在WSJ_baseline上跑通整个语音识别的流程语音识别具体步骤:模型训练:1用CompV估计全局方差2用ModelGen克隆monophone3HERest训练monophone模型4校正训练数据5用校正后的数据训练模型识别与测试:1HParse生成语法网络2HVite识别3HResults计算识别率程序:EasyTrainingDTM.plr
3、un_test.pl3.分析语音识别输出结果文件——lattice和混淆网络(CN)IIikeIt’sisIittleIateItisyellowcolorIt’scar0.50.050.20.30.50.50.80.050.20.050.20.6IittleIikeyellow识别句子:Ilikeit’scolorlattice结构:iscarIlateIt’scolorIt混淆网络结构:《语音关键词识别技术的研究》《语音关键词识别技术的研究及应用》《语音识别中的后处理技术研究》《汉语大词汇量连续语音识别中混淆网络算法的研究》《基于L
4、attice分段的高质量混淆网络快速生成方法》《基于KL散度的最大后验弧主导的混淆网络生成算法》《Findingconsensusinspeechrecognition》Mangu2000《IndexingConfusionNetworksforMorph-basedSpokenDocumentRetrieval》Turunen2007目前国内外有关混淆网络技术的研究:4.混淆网络生成程序1)在lattice上利用前向,后向算法计算节点的后验概率。每个节点后验概率=前向概率×后向概率;2)概率剪枝。剪枝后再重新计算每个节点的后验概率。3)在lattice上寻找一个
5、概率最大的节点,利用维特比算法生成一条包含起始和结束节点的one-best路径,作为构建混淆网络的参照路径。4)在剩余弧中寻找一个概率最大的节点,利用维特比算法生成一条最佳路径。5)对于最佳路径中的所有弧节点,与混淆网络中的每个集合进行比较,计算删除、插入、替代三种代价。取代价最小的一种方式将弧引入参照路径中。6)迭代执行4和5,直至所有弧都加入到混淆网络中。IIikeIt’sisIittleIateItisyellowcolorIt’scar0.50.050.20.30.50.50.80.050.20.050.20.6iscarIlikeIt’sc
6、olorOne-bestCNlattice-tool工具生成混淆网络SRILM工程中提取混淆网络c++程序主函数:lattice-tool.ccHTK格式的lattice文件读取和存储:HTKLattice.cc计算词后验概率:LatticeAlign.cc混淆网络生成:Wordmesh.cc完成代码中应用到的前后向算法,维特比算法,动态规划算法,MED分配混淆网络等数学证明index.cc建立关键词的倒排索引,提高检索速度应用混淆网络进行关键词检索的实验结果:采用2006年NIST组织的STD评测系统,共284个测试词,74个测试短语测试集上以0.9进行概率剪枝
7、获得最高ATWV:0.6词的识别正确率:73.5%剩余工作安排:1.改进混淆网络程序,提高关键词的检出率2.完成毕业论文写作Thankyou!
此文档下载收益归作者所有