模式识别-基于arm的声纹识别系统

模式识别-基于arm的声纹识别系统

ID:6744983

大小:303.00 KB

页数:8页

时间:2018-01-24

模式识别-基于arm的声纹识别系统_第1页
模式识别-基于arm的声纹识别系统_第2页
模式识别-基于arm的声纹识别系统_第3页
模式识别-基于arm的声纹识别系统_第4页
模式识别-基于arm的声纹识别系统_第5页
资源描述:

《模式识别-基于arm的声纹识别系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、项目综述基于ARM的声纹识别系统一.声纹识别的基本原理声纹识别的工作过程一般可分为两个阶段:训练阶段和识别阶段。在训练过程中,系统提取出最能代表说话人个性特征的特征参数,并对所提取出来的特征参数进行学习训练,建立声纹模板或语音模型库。在识别过程中,根据系统已有的声纹模板或语音模型库对输入用语音的特征参数进行模式匹配,判别,得出结果。三.语音信号的倒谱特征分析的主要理论方法根据所分析的参数类型,语音信号分析包括两个方面:时域和变换域。时域直接对语音信号的波形进行分析,得到信号幅度,能量,过零率及自相关函数等。变频域可以使信号某些在时域上无法表现出来的特征变得特别明显。最常用的是傅里

2、叶变换,为了能够分析处理非平稳信号,提出短时傅里叶变换。同态信号分析处理:语音信号是由激励信号源和声道响应相卷积的结果,是非加性信号,不能用线性系统来处理。同态信号分析就是将非线性转化为线性问题来处理,便于分析。同态分析的基本思想就是对语音信号解卷积,从而将声门激励和声道特征分离开来,分离的方法是对语音信号在频域上取对数,再反变换到时域中。倒谱(Cepstrum)就是从同态分析处理中引出来的概念。“倒谱特征”利用了对语音信号做适当的同态滤波可以将激励信号和声道信号加以分离的原理,它是用来表征不同说话人最有效的个性特征之一。设语音信号为s(n),声门脉冲激励为e(n),声道响应为v

3、(n),根据语音信号产生模型,语音信号为声门激励与声道响应的卷积,通过以下运算,可以得到倒普:在实际应用中,Z变换难以实现,所以常常忽略倒普运算中的虚数部分,用快速傅里叶变换FFT来做近似计算经过同态处理后,s(n)的高频部分代表了激励的特性,而低频部分代表了声道的特性,容易被分离开来。三.信号的预处理3.1语音的采样和量化(AD转换)对声音信号进行数字化。语音经音频采集设备如麦克风,进行声电转化变为模拟信号,然后经由A/D进行采样,量化变为数字信号。一般采用8kHz的采样频率。降低采样率可以减少数据量,这在嵌入式系统中尤其珍贵。当采样率从16KHZ降到8KHZ,所造成的识别率下

4、降不超过1%,但可以节省语音识别前端50%的动态存储空间,减少运行时识别前端25%的计算量。综合以上因素,在实际采样中我们都采用8KHZ采样率。如果是对已经录好音的文件进行处理,实际上就跳过了采样与量化这两步。3.2语音信号的预加重800Hz高频部分会出现一定的衰落。预加重就是加强高频部分,使信号的高频部分变得平坦,便于进行频谱分析或者声道参数分析用一阶数字滤波器实现:其离散表达式为3.3分帧(短时分析方法)此时的语音信号实际上是一个时变信号,而它只有在短时间内才能表现出准平稳特性。我们假设语音信号在l0ms--30ms短时间内是平稳的。每一个短时间段称为一帧,为了从语音信号中提

5、取N帧特征数据,我们需要采用有限长度的窗函数序列w(n)。分帧其实就是加矩形窗。3.4加窗为了减少语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过度到零,就要使语音帧乘以一个窗函数。理想的窗函数的频率响应要求主瓣无限狭窄且滑旁瓣(即无频谱泄露),但这种窗函数在实际工程中不存在。根据不同的作用,常采用以下几种窗函数来逼近理想的频率响应。一般常用矩形窗和汉明窗。3.5端点检测(时域)语音端点检测一般步骤如下:1.将语音信号分成相邻有重叠的语音段,称为语音帧;2.采用一种判决准则,例如门限判决或模式分类,来检测语音帧和非语音帧;3.对有效的语音帧进行相应的标识,

6、得到有效语音段的全部区间;一般常采用两种时域特征:短时能量和短时过零率,通过设定它们的门限进行检测。短时能量有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大的多:其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等等。在说话人识别中,主要用于对有声段和无声段进行判定。短时过零率则是指一帧语音信号中波形穿越零电平的次数。由于语音信号包括有静音段和有效语音段,静音段的由于只包含随机噪声,其波形变化大小较缓慢,而有效语音段由于有声带的振动及气流在口腔中的摩擦、冲击等影响,造成波形在幅度上的变化比较剧烈,短时过零率即是用来

7、描述这种变化的剧烈程度。过零率可以用于判断有语和无语,但很容易受到低频信号干拢而引起误判。为了解决这个问题,可以改为过正负门限,为了进一步提高判断准确率,可以采用多门限过零端点检测算法。四.特征向量的提取特征参数提取的目的就是从说话人语音中提取出能够表征说话人特定器官结构或习惯行为的特征参数。这也是语音识别与声纹识别的差别所在。语音信息中包含有具有共性的语音内容信息,也有具有差异的个性声音特征。语音识别是要提取出语音内容而屏蔽掉个性差异;声纹识别则需要提取出反映个性差异的信息而忽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。