矢量量化在说话人识别中的应用

ID：5302033

大小：106.59 KB

页数：1页

时间：2017-12-07

资源描述：

《矢量量化在说话人识别中的应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、斟—技—景信龙江息——科J技J论l坛矢量量化在说话人识别中的应用檀蕊莲(西安武警工程学院，陕西西安710086)摘要：说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术，具有广泛的应用前景。采用矢量量化(vQ)方法，可以在信息量损失较小的情况下更好地压缩数据量，从而增高说话人识别系统的识别率。研究了vQ在说话人识别中的应用，提出并设计了一个基于vq的说话人识别系统，当用于训练的数据量较小时，可以得到比较稳定的识别性能。，关键词：说话人识别；特征提取；矢量量化1

2、概述点检测主要是为了区分语音的有所谓说话人识别，就是根据输入语音确定声段和无声段，找出语音的起始发音者的身份，即用待识语音和预先提取的说端点和结束端点，把语音信号的话人特征来确定或鉴别说话人的身份⋯。主要讨有效部分从输入信号中找出来。论了说话人识别技术的原理及其实现方法，做有效的端点检测不仅能使处理时了一个基于矢量量化(VQ)的说话人识别系统，阳I减到最小，而且能排除无声段并对仿真实验数据进行了分析。的噪声干扰，从而使识别系统具2基于矢量量化(VQ)的说话人识别方法有良好的识别性能。在背景噪声及其算法实现较小时用

3、平均能量识别较为有2．1矢量量化的基本原理效，在背景噪声较大时用平均过矢量量化的基本原理是：将若干个标量数零率识别较为有效。采用短时能据组成一个矢量(或是从一帧语音数据中提取量与短时过零率相结合的方法来的特征矢量)在多维空间给与整体量化，从而可确定语音的起始点。预处理阶段以在信息量损失较小的情况下压缩数据量，这主要是对语音信号进行预加重，是仙农信息论中“率一失真理论”在信源编码中加窗，分帧等。图1基于VQ的说话人识别系统工作界面的重要应用。矢量量化有效地应川了各元素『ⅡJ预加重的同的在：r消除唇辐表1基于VQ的说

4、话人辨认实验的褶关性，因此比标量量化具有更好的压缩效射的影响，提升语音高频部分，使果。语音信号的频谱区域平坦，预加2．2矢量量化在语音识别中的应用重滤波器采用下式实现：通过矢量量化可以把大量分布在特征空H(Z)一10．95Z间中的向量投射到这个空间中的有限点L，既压缩了数据又不会对精度造成太大的影响。将分帧，即把语音信号分成帧矢量量化用于说话人识别系统的建模中，这时长为N，帧移为M的短时语音帧的特征空间是由说话人的声学特征向量构成序列。取256点(23．2ms)为一帧，的，经过矢量量化后，每个说话人最具有代表性帧

5、移128点(11．6ms)。多，识刖半越好，在相同的训练样本个数下，待的特征向量的集合就构成了相应的说话人模型加窗，采用汉明窗(Hammingwindow)来消识别者的语音长度越长识别性能越好，但并不(码书或码本)。其中，构成码本的单个特征向量除由于分帧引起的信号边缘蜕变。汉明窗计算要求无限长，从表中可以看出，3s和5s的识别称为码字。在矢量量化系统中，每个说话人的码公式如下：率几乎是相当的，都能达到几乎lOO％的识别本就是它的参考模型。首先，用矢量量化的码本率。c=f。。c。s月一’，。作为说话人识别的参考模板

6、，即为输入的语音4结论中的每一个词或字做一个码本作为该词或宁的的说话人识别系统是基于MATLAB搭建说话人识别技术具有广泛的应用前景，矢参考模板．识别时对于任意输入的语音特征序的，工作界面如图1所示。此系统主要用于说量量化技术是仙农信息论中“率一失真理论”在列，计算该序列对每个码本的总平均的失真量话人辨认实验。信源编码中的重要应用。通过上面的实验证明化误差，即语音每一帧特征矢量与码本的失真3．2基于矢量量化的说话人辨认实验了设计的说话人识别系统是可行的，并能实现之和除以该语音的长度(帧数)。总平均误差最为了测试所

7、建立的说话人识别系统的有效较好的说话人识别，而基于矢量量化的说话人小的码本所对应的词或字即为识别结果。性，同时也为了进一步了解识别模型的识别性识别系统也县有相当高的识别率。3基于矢量量化(VQ)的说话人识别系统能和特点，我们在安静的教室环境下选择10个参考文献的仿真结果与分析说话人(6男4女)进行干净语音的提取并进行⋯臧晓昱．基于改进的高斯混合模型说话人识3．I说话人识别系统的建立说话人辨认实验，实验中使用的语音特征参数别方法的研究IR]．西安：武警工程学院，2006．所用的语音数据均在相对安静的教室环为MFCC

8、+△MFCC。f21赵力．语音信号处理『MI．北京：机械工业出版境下，采用设计的说话人识别系统通过笔记本实验一：社．2o03．电脑采集，声卡自动完成语音波彤的A／D转a．采集10个说话人的语音作为训练样本，作者简介：檀蕊莲(1982～)女，广西钦州人，换，获得WAV文件。采样率为11025Hz，量化值内容为汉语“说话人识别”，不同的人说同样的现为西安武警工程学院通信工程系

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 / 1



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

矢量量化在说话人识别中的应用

矢量量化在说话人识别中的应用

相关文章

相关标签