基于短时能零比的藏语语音端点检测的研究

基于短时能零比的藏语语音端点检测的研究

ID:38181240

大小:253.57 KB

页数:5页

时间:2019-05-24

基于短时能零比的藏语语音端点检测的研究_第1页
基于短时能零比的藏语语音端点检测的研究_第2页
基于短时能零比的藏语语音端点检测的研究_第3页
基于短时能零比的藏语语音端点检测的研究_第4页
基于短时能零比的藏语语音端点检测的研究_第5页
资源描述:

《基于短时能零比的藏语语音端点检测的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ICMIT′07_213基于短时能频值的藏语语音端点检测的研究武光利1,于洪志2中国科学院自动化研究所摘要语音的端点检测将直接决定语音的识别率。利用短时能频积的方法进行语音端点检测,比原先只借助于短时能量和过零率相结合的方法,提高了端点检测的准确率。关键词藏语;能频值;端点检测ResearchBasedOnEnergy-Frequency-Value(EFV)InTibetanSpeechEndpointsDetection12WuGuangli,YuHongzhiInstituteofAutom

2、ationChineseAcademyofSciencesAbstractThespeechendpointsdetectionwilldecidethespeechrecognitionrate.AnewmethodusingEnergy-Frequency-Value(EFV)whichstudiedinspeechendpointsdectection,hadimprovedmoreaccuraterateinspeechendpointsdectectionthanconventional

3、methodwhichonlyintegratedshort-termenergyandzero-crossingrate.KeywordsTibetan;Energy-Frequency-Value;speechendpointsdetection1.引言随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。于是,语音,作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径,越来越引起研究者的关注,而

4、藏语的语音信息处理还是一片空白。作为语音信号处理研究的重要领域,语音识别技术的最终目的是象人与人之间谈话交流信息一样,实现人一机自由对话,也就是赋予机器以听觉,使机器能听懂人的语言,辨明话音的内容或说话人,将人的语音正确地转化为书面语言或有意义的符号,或者进一步使机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。据预测,语音识别将成为继键盘和鼠标器之后,人机交互界面革命中的又一次飞跃。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起始点及结束点,有效的端点检测技

5、术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高。语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重的作用,直接影响着后续工作的正确率。1作者简介:武光利(1981一),男,研究生,主要研究方向:语音识别。2于洪志,教授、博导,研究方向为多文种信息处理、中文信息项目资助:本项目得到中国科学院自动化研究所模式识别国家重点实验室开放课题“安多藏语语音合成文本分析基础研究”资助1242.数据源本文所用的数据源都是从WAVE

6、文件中得到,WAVE文件作为多媒体中使用的声波文件格式之一,它是以RIFF格式为标准的。RIFF是英文ResourceInterchangeFileFormat的缩写,每个WAVE文件的头四个字节便是“RIFF”。WAVE文件由文件头和数据体两大部分组成。其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的声音文件主要有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。WAVE文件至少包括3个块:RIF

7、F块、FMT块、DATA块,其中RIFF是FMT和DATA块的父块,RIFF是用来判断是否是WAVE文件,我们所要处理的数据是从DATA块中读取,然后再进行处理。WAVE文件文件的结构如下图:标志符(RIFF)数据大小格式类型("WAVE")"fmt"Sizeof(PCMWAVEFORMAT)PCMWAVEFORMAT"data"声音数据大小声音数据图1WAVE文件结构藏语“輂纍︽繿臗︽肑︽繻胠繻︽繻輦纊︽軷繼︽繻羇繼︽臫繼﹀”(汉语为“春夏秋冬为四季”)的Wave文件显示的部分波形图图2波形图3

8、.算法基本原理3.1特征参数的介绍3.1.1短时能量短时能量的定义:设语音信号为x()n,短时能量的定义:n2En=−∑[()(xnwnm)]mnN=−+1125其中窗函数为哈明窗,为:⎧0其它⎪wn()=⎨⎛⎞2πn⎪0.540.46cos−⎜⎟()0≤nN≤−1⎩⎝⎠N−1窗长为N短时能量主要用途如下:1)可以作为区分清音段和浊音段的特征参数。实验结果表明浊音段的能量E明显高于清音段。通n过设置一个能量门限值,可以大致判定浊音变为清音或者变为浊音的时刻,同时也可以大致划分浊音区

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。