欢迎来到天天文库
浏览记录
ID:23779202
大小:876.95 KB
页数:27页
时间:2018-11-10
《数字音效处理器项目报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、《数字信号处理B》课程项目终期报告:字音效处理器14号题目:一组号:_任课教师:组长:_成员:_成员:_成员:_成员:_联系方式:二0—五年10月240目录项目介绍•项目原理•项目完成过程四.项目结果与分析五.工作分配六.参考文献一.项目介绍本次项0要求设计一个数字音效处理器,通过一系列相关算法以及借助相关工具(MATLAB),对声音信号进行处理,要求具备语音识别以及降除噪声的功能,另外我们又加入了语音均衡器,丰富了数字音效处理器的功能。最后加入GUI界而设计,方便了用户的使用。二.项目原理本部分主要分为三部分,分别是语音识别,噪声降除以及语音均衡器的相关原理
2、。语音识别:1.1项目大体步骤我们主要釆用基于VQ的说话人识别,我们采用的识别结构框图如下,语音信号1.2语音信号的预处理预处理包括:预加重,端点检测,分帧以及加窗。预加重的目的是将更为有用的高频部分频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求取频谱,以便于进行频谱分析或声道参数分析。端点检测即是对输入语音信号的起始点与结束点的判定。分帧:由于语音信号的准平稳特性,使得其只有在短时段上才可被视为一个平稳过程,所以需要把一定长度的语音分为很多帧来分析。加窗:为了减少语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急
3、剧变化而平滑过渡到零,需要将语咅帧乘以一个窗函数。1.3MFCC特征函数的提取Mel频率倒谱系数(MFCC)的分析与传统的线性倒谱系数(LPCC)不同,它的分析是着眼于人耳的听觉机理,因为人类在对1000Hz以下的声音频率范围的感知遵循近似的线性关系;对1000Hz以上的声咅频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系,所以Mel倒谱系数获得了较高的识别率和较好的兽棒性。实现上,Mel倒谱系数是将语音频率划分成一系列三角形的滤波器序列,这组滤波器在频率的Mel坐标上是等待宽的。MFCC参数的提取过程为:1.对输入的语音信号进行分帧、加窗
4、,然后作离散傅立叶变换,获得频谱分布信息。设语音信号的DFT为:/V-l」2nnkXa(k)=^x(n)e~,05、(k)6、2H(k))07、响应。5.经过离散弦变换(DCT)得到MFCC系数。M-C(n)=^S(m)cos(>r/7(z7t-0.5/m)),0<7i8、度连续取值的时域采样信号分成一组,则构成矢量,然后用若干离散数字值,来表示各种矢量,其冇效地利用了矢量中各分量的四种相关的性质,因此在量化过程屮最大限度地消除数据之间的冗余,从而实现高效的熵压缩码。其基本原理为:将一帧语音数据中提取的矢量特征在多维空间给予整体量化。首先把信号序列的每隔K个连续点分成一组,形成K维欧氏空间中的一个矢量,然后对此矢量进行量化。本文中矢量量化有两个作用,在训练阶段,把每个说话者所提取的特征参数进行分类,产生不同码子组成的码木;在识别阶段,我们用VQ方法计算平均失真测度,以此进行说话人识别。VQ码本的设计主要采用LBG算法,该算法是一9、种递推算法,从一个事先选定的初始码本进行迭代,直到系统性能满足要求或不再有明显的改进为止。具体LBG算法如下:设Xk(k=W.、K)为训练序列,B为码本。1.取提取出来的所冇帧的特征矢量的型心(均值)作为第一个码字矢量B1。2.将当前的码本Bm根据以下规则分裂,形成2m个码字。B:=Bm⑽xtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtx10、xtxxtxxtx(4)其中m从1变化
5、(k)
6、2H(k))07、响应。5.经过离散弦变换(DCT)得到MFCC系数。M-C(n)=^S(m)cos(>r/7(z7t-0.5/m)),0<7i8、度连续取值的时域采样信号分成一组,则构成矢量,然后用若干离散数字值,来表示各种矢量,其冇效地利用了矢量中各分量的四种相关的性质,因此在量化过程屮最大限度地消除数据之间的冗余,从而实现高效的熵压缩码。其基本原理为:将一帧语音数据中提取的矢量特征在多维空间给予整体量化。首先把信号序列的每隔K个连续点分成一组,形成K维欧氏空间中的一个矢量,然后对此矢量进行量化。本文中矢量量化有两个作用,在训练阶段,把每个说话者所提取的特征参数进行分类,产生不同码子组成的码木;在识别阶段,我们用VQ方法计算平均失真测度,以此进行说话人识别。VQ码本的设计主要采用LBG算法,该算法是一9、种递推算法,从一个事先选定的初始码本进行迭代,直到系统性能满足要求或不再有明显的改进为止。具体LBG算法如下:设Xk(k=W.、K)为训练序列,B为码本。1.取提取出来的所冇帧的特征矢量的型心(均值)作为第一个码字矢量B1。2.将当前的码本Bm根据以下规则分裂,形成2m个码字。B:=Bm⑽xtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtx10、xtxxtxxtx(4)其中m从1变化
7、响应。5.经过离散弦变换(DCT)得到MFCC系数。M-C(n)=^S(m)cos(>r/7(z7t-0.5/m)),0<7i8、度连续取值的时域采样信号分成一组,则构成矢量,然后用若干离散数字值,来表示各种矢量,其冇效地利用了矢量中各分量的四种相关的性质,因此在量化过程屮最大限度地消除数据之间的冗余,从而实现高效的熵压缩码。其基本原理为:将一帧语音数据中提取的矢量特征在多维空间给予整体量化。首先把信号序列的每隔K个连续点分成一组,形成K维欧氏空间中的一个矢量,然后对此矢量进行量化。本文中矢量量化有两个作用,在训练阶段,把每个说话者所提取的特征参数进行分类,产生不同码子组成的码木;在识别阶段,我们用VQ方法计算平均失真测度,以此进行说话人识别。VQ码本的设计主要采用LBG算法,该算法是一9、种递推算法,从一个事先选定的初始码本进行迭代,直到系统性能满足要求或不再有明显的改进为止。具体LBG算法如下:设Xk(k=W.、K)为训练序列,B为码本。1.取提取出来的所冇帧的特征矢量的型心(均值)作为第一个码字矢量B1。2.将当前的码本Bm根据以下规则分裂,形成2m个码字。B:=Bm⑽xtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtx10、xtxxtxxtx(4)其中m从1变化
8、度连续取值的时域采样信号分成一组,则构成矢量,然后用若干离散数字值,来表示各种矢量,其冇效地利用了矢量中各分量的四种相关的性质,因此在量化过程屮最大限度地消除数据之间的冗余,从而实现高效的熵压缩码。其基本原理为:将一帧语音数据中提取的矢量特征在多维空间给予整体量化。首先把信号序列的每隔K个连续点分成一组,形成K维欧氏空间中的一个矢量,然后对此矢量进行量化。本文中矢量量化有两个作用,在训练阶段,把每个说话者所提取的特征参数进行分类,产生不同码子组成的码木;在识别阶段,我们用VQ方法计算平均失真测度,以此进行说话人识别。VQ码本的设计主要采用LBG算法,该算法是一
9、种递推算法,从一个事先选定的初始码本进行迭代,直到系统性能满足要求或不再有明显的改进为止。具体LBG算法如下:设Xk(k=W.、K)为训练序列,B为码本。1.取提取出来的所冇帧的特征矢量的型心(均值)作为第一个码字矢量B1。2.将当前的码本Bm根据以下规则分裂,形成2m个码字。B:=Bm⑽xtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtxxtx
10、xtxxtxxtx(4)其中m从1变化
此文档下载收益归作者所有