基于关键词识别的语音到手势的转换探究

基于关键词识别的语音到手势的转换探究

ID:24665376

大小:50.00 KB

页数:4页

时间:2018-11-15

基于关键词识别的语音到手势的转换探究_第1页
基于关键词识别的语音到手势的转换探究_第2页
基于关键词识别的语音到手势的转换探究_第3页
基于关键词识别的语音到手势的转换探究_第4页
资源描述:

《基于关键词识别的语音到手势的转换探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于关键词识别的语音到手势的转换探究 1引言  我国听力语言障碍者的人数已约略2780万人,占据中国人口总数的2.14%。对于聋哑人来说,手势是他们进行人际交流和正常生活、工作的一种重要工具。因此,手势的合成对健全人与听力言语障碍者的正常沟通和交流具有重要的作用。近些年来,基于计算机视觉的手语合成[1]以其独特的交互方式受到科研人员越来越多的重视,是现在手语合成研究的热点。其中,文献主要是通过VC和SQL数据库的无缝连接,设计开发了以数据手套为基础的言语残障患者医疗辅助系统,它具体是利用单只数据手套采集聋哑人手语的完整信息,并在预先建立的手语翻译信息对比数据库中查询、搜索,接着依据手语的新定

2、义方式,采用特定的显示办法将查询、搜索得到的手势图片重现,进而完成手语的合成;文献是基于运动跟踪的方法,通过数据手套开发、利用人体上肢运动的采集程序对手势进行实时采集,接着,在手语编辑系统中运用控制点操作的办法对这些手语进行处理,然后将其虚拟显示,完成手语合成系统的实现。然而,目前现有的研究大多都只针对手语合成的问题展开研究,并没有考虑到聋哑人与正常人之间的交流沟通问题,忽视了让听力障碍者能够听到声音的情况,缺乏语音到手势的转换研究。  在语音识别技术的持续发展中,从特定人孤立词语音识别到非特定人连续语音识别的研究,其识别的算法已日趋成熟,但在语音到手势转换方面的研究还有所欠缺。文献利用Sp

3、eechSDK语音识别系统,以及虚拟人模型的运动控制方法,基本实现了语音到手势的转换演示,但其识别精度不高,视觉应用上存在一定的缺陷。正常人与聋哑人交流的关键在于能够让聋哑人理解正常人表达的关键意思,本文将关键词识别与手势合成相结合,提出了一种语音关键词到聋哑人手语手势的转换方法,建立了《中国手语》中数字、字母等手语的三维手势模型,采用关键词识别技术识别出语音信号中包含的手语关键词,利用OpenGL播放对应的手势,从而实现了语音到手势语的转换。语音信号的识别,以及经过语音分析,提取并建立的手势与语音相对应的文本字典将语音识别与手势模型的重现过程结合起来,实现了语音到静态手势的转换。实验结果显

4、示,本文提供的方法在字母、数字等语音关键词的识别效果上可以达到90.1%,在合成手势的可懂度上,其平均主观评定得分(MeanOpinionScore,MOS)为4.4分,能够直接用于健全人与聋哑人相互间的正常沟通。  2语音到手势转换的总体框图  语音到手势的转换主要由字母、数字和常用字词等关键词定义的手势的三维手势建模过程,关键词识别过程,手势模型的播放过程三部分组成。首先,根据《中国手语》中哑语字母、数字和常用词汇定义的手势,采用三维建模工具3DSMAX建立了这些手语词汇对应的静态三维手势模型。对输入的语音信号,采用基于HMM的关键词识别方法识别出语音信号中包含的字母、数字和常用词汇等关

5、键词;最后根据识别的结果,采用OpenGL图形库函数播放出关键词对应的手势。从而实现语音到手势的转换。  3基于HMM的关键词识别  关键词识别(Key-AX建模工具创建了由57个三维手势构成的模型库;其中,部分手势模型如图6所示。对于建立的手势模型,采用OpenGL进行播放。在手势模型的显示过程中,为避免3D模型文件在OpenGL环境下读取文件数据的复杂性、模型显示算法的不精确性,将采用3DMAX建立的手势模型输出为图片格式。接着,利用OpenGL的图形库函数读取图片格式的手势模型的图形像素数据,完成手势模型的显示。  5实验结果及分析  5.1关键词识别  本文采用隐马尔可夫模型工具箱(

6、HiddenMarkovmodelToolkit,HTK)搭建了关键词识别系统,训练了37个关键词及非关键词的整词模型和静音、停顿的声学模型。声学模型的特征参数采用包括能量在内的13维Mel频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)及其一阶差分和二阶差分,形成133维的特征向量。语言模型采用实现的普通话语音识别系统的语言模型,该语言模型利用HTK的Trigram语言模型工具,从一个大规模的文本语料库中构建,文本语料库由10万句新闻语料构成。  实验中,录制了办公室环境下四男四女,共8位非特定说话人的592句语音(单声道,16位量化精度,16k

7、Hz的采样率,保存为.eanOpinionScore,MOS)方法,采用主观评测的方法对播放的手势进行主观打分,以评测语音到手势转换的准确度。选择15位熟悉手语的普通话评测者作为被试。评测时,给被试播放包含数字和字母的37句普通话语音,同时显示识别出的关键词对应的手势,让被试根据听到的关键词,对显示的手势与关键词的匹配程度按的5分制标准打分,并统计出所有被试的平均得分,计算出相应的标准差,结果如表2所示。从表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。