欢迎来到天天文库
浏览记录
ID:9450968
大小:6.27 MB
页数:15页
时间:2018-05-01
《环境声音识别方法的比较》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、环境声音识别方法的比较摘要:本论文结合环境声音的平稳/非平稳特征提取,对人工神经网络,学习向量量化和动态时间规划分类的方法进行综合比较研究。结果显示,应用梅尔频谱倒谱系数或动态时间规划连续小波变换方法,识别正确率可达70%。关键字:非语音识别;环境声音识别;音频信号处理;声信号处理;联合视频特征提取1、引言本论文对语音识别与乐器识别的典型方法进行综合研究比较,并探讨这些方法的环境声信号识别中的适应性。结果表明,在传统的语音识别与乐器声识别中得到很好应用的技术,在环境声信号的识别中并不适合。而在环境声信号识别领域,公开发表的研
2、究并不多。本实验中,动态时间规划的非平稳连续小波变换显示出最好的效果。在之前的工作中,本作者(Cowing和Sitte,2000,2001,2002a,b)对环境声信号识别中的平稳特征提取技术进行研究。虽然比较实验的结果很明显,但由于大多数环境声信号的固有非平稳特性,平稳特征提取技术在其中的应用不是很理想。然而,Orretal.(2001)在语音识别中的新研究成果表明,非平稳(即时域)技术可用于声音研究且效果不错。因为,我们对该方法在环境声信号中的适应性进行试验。本文分析讨论了固定频率和非固定技术的特征提取技术在环境声音分类
3、中的应用,并与一些常用的分类技术进行比较(语音识别与乐器识别中的传统技术)。本文为声信号处理领域,尤其是计算声音场景分析方面做出一定的贡献。环境声音识别系统的发展,又有助于声音理解智能机器的发展。其中,该技术最新的应用便是作为安全系统中的一个核心元素。在监视系统中,由于在声音监视中,不存在检测视线上的问题,一定程度上来说,这比只有视频的监视系统有优势。另外,声音系统可以与视频系统相结合,如用声强来触发摄像头采集数据。以下文章分为四部分,第二部分(即接下来的第一部分)讨论特征提取技术和分类技术的选择,尤其突出了可用于非语音识别
4、的方法。第三部分阐述了这些技术的具体实施。第四部分对实验结果进行比较,估计了各种方法在监视系统中的适应性。最后,第五部分对全文进行总结,并展望了环境声音识别领域的未来研究发展情况。2、声信号分析方法选择此部分分析了一系列方法对环境声音识别的适应性。声音识别(包括语音与非语音)包括特征提取与分类(运用人工智能技术)。特征提取指从声音中获取一系列该声音的特征特性,如高音调或低音调。分类则是对声音的识别,通过对已有声音样本进行特征训练,再将测试的声音与其比较。特征提取可被分为两大类:固定(频域)特征提取与非固定(时域)特征提取。固
5、定特征提取包含了整个信号中详细的总体频率信息,而无法判别该频率发生在信号何处发生。相反地,非固定特征提取将信号在时域上分成各个小单元,可辨别各频率信号具体的位置,更有利于对信号的直接理解。2.1.特征提取(固定)对于固定的特征提取而言,语音和乐器识别仅有几种不同类型的特征提取方法(每种方法有若干不同的差异)。首先,我们考虑8种流行的方法(其中有两种方法在乐器识别中广泛应用,而所有方法均可用于语音识别)作为非语音特征提取的备选方法。各方法如以下所列:·频谱提取(乐器与语音)·同态倒谱系数·梅尔频率倒谱系数(乐器与语音)·线性预
6、测倒谱(以下简写为LPC)系数·梅尔频率LPC系数·巴尔克频率倒谱系数·巴尔克频率LPC系数·感知线性预测(PLP)特征需要指出的是,频谱提取的方法为固定技术,而其他运用倒谱系数的方法,由于将信号分成时间片,可被称为“伪平稳”技术。而每个时间片又将与其他时间片相结合,产生相关信息,因此这些方法不是真正的时域提取技术。基于LPC系数的方法以模拟人类声道的声码器为基础。而人的声道不能发出环境中的一些声音,所以这些方法不能突出声音中典型的唯一特征,因此不适合于非语音识别。根据Lilly(2000),梅尔频率滤波器和巴尔克频率滤波器
7、的性质相似,因此两者的滤波效果相近。Goldetal.(2000)也提到,PLP和梅尔频率的两种方法技术相类似。基于以上的了解,我们选择较为流行的梅尔频率方法进行试验。2.2.特征提取(非固定)已知大多数文献中,主要的时频方法有:·短时傅立叶变换(STFT)·快速(离散)小波变换(FWT)·连续小波变换(CWT)·Wingner—Ville分布(WVD)所有这些方法用不同的算法来产生一个信号的时域表示。例如,STFT在加若干个窗口的基础上,运用标准傅立叶变换;而基于小波技术的方法将母波应用于波的变换中,避免了STFT中存在的
8、固有问题所带来的影响;WVD是一种双线性时域分布,并用一些先进的技术来解决难点。相比STFT,WVD有更好的解决方案,但产生一一些交叉干扰,且结果的粒度比小波技术粗糙。对于两种小波技术,FWT常用于信号的编码解码,而CWT常用于各种识别工作。FWT在语音声音编码中有广泛应用,并能成功适用于
此文档下载收益归作者所有