声纹识别分析王姚

声纹识别分析王姚

ID:40280253

大小:234.19 KB

页数:13页

时间:2019-07-30

声纹识别分析王姚_第1页
声纹识别分析王姚_第2页
声纹识别分析王姚_第3页
声纹识别分析王姚_第4页
声纹识别分析王姚_第5页
资源描述:

《声纹识别分析王姚》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、安徽科技学院2014-2015学年第1学期《行业标准概论》课程论文姓名:王姚学号:1665110215班级:电信112声纹识别的分析王姚(数理与信息工程学院)摘要:本文提出了一种可用于说话人识别的神经阵列网络,以美尔倒谱系数(MelFrequeneyCepstrumCoefficients:MFCC)作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。同时,算法结合心理声学模型,提取了能表现说话人个性特征的Mel倒谱系数为特征进行说话人识别,可较好地提升系统的抗噪性能。该方法具有快速学习网络权重的能力,并且网络的全局寻优能力强,使得系统的识别率进

2、一步提高。问题一、要求建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征,本文通过构建声纹特征MFCC系数模型,对语音数据进行提取、预加重、分帧、傅里叶变换等处理提取特征参数。问题二、要求利用说话人特征建立说话人模型或声纹识别模型。本文利用BP神经网络模型以建成声纹识别模型。通过对特征参数的训练、分类,从而达到多个人说话的语音中分辨出各个人的语音;问题三、要求我们利用语音数据,评价说话人模型或声纹识别模型评价的好坏。本文对语音信号进行了预处理,解决了滤除高频噪音,防止50Hz工频干扰及平滑频域信号等一系列不利于MFCC系数提取的因素,同时,计算出识别的准确率和

3、所用时间,从而判断模型的好坏和实用性;问题四中,我们透彻分析影响准确率的因素,运用遗传算法优化BP神经网络进行优化,进一步提高声纹识别的准确率。关键词:美尔倒谱系数遗传算法神经网络声纹识别BP神经网络一、问题重述生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军事和民用等诸多领域,推动着信息产业的蓬勃发展。声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说

4、话人的说话内容必须是指定的内容。评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话人语音到识别结果的输出说话的时间,该时间越短约好。请试着利用采集到的说话人语音数据(文本相关和文本无关两类),完成以下几点:1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征;2)利用说话人特征建立说话人模型或声纹识别模型;3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。二、问题分析2.1问题一要求建立代表说话人身份的

5、语音特征,并且能够通过编程从语音数据中提取说话人特征。首先,我们要对输入的原始信号进行预处理,过滤其中不重要的信息以及背景噪声等,进行语音信号的端点检测,并进行语音信号的分帧以及预加重等处理工作。对采集到的语音样本的预处理包括预加重、加窗分帧和端点检测。预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器:式中u为预加重系数,通常取值0.95左右。本系统采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理。通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,可以剔除掉静默

6、帧、白噪声帧和清音帧,最后保留对求取MFCC等特征参数非常有用的浊音信号。2.2问题二是对说话人的语音进行识别,语音特征信号识别是语音识别研究领域中的一个重要方面,我们采用模式匹配的原理解决。语音识别的运算过程为:首先,待识别语音转化为电信号后输入识别系统,经过预处理后用数学方法提取语音特征信号,提取出的语音特征信号可以看成该段语音的模式。然后将该段语音模型同已知参考模式相比较,获得最佳匹配的参考模式为该段语音的识别结果。语音识别流程如图2.2.1所示流程图如下:图2.2.1说话人识别模型流程图本模型中我们选取了001,002,003,004四类不同音频,用BP神经网络实现对这

7、四类音频的有效分类。每段音频都用上述倒谱系数法提取500组24维语音特征信号,提取出的语音特征信号。2.3问题三要求利用语音数据评价你的说话人模型或声纹识别模型评价的好坏。通过本文建立BP神经网络模型,我们可运行测试其准确性。2.4问题四要求我们分析影响准确率的因素,并采取措施进一步提高声纹识别的准确率。三、模型假设1.假设预加重系数u的值为0.93752.假设所用的音频的录音环境为同一环境,为封闭式录音教室;3.假设录用人员讲的语言为较标准的普通话;4.假设录音人员是处于正常说话模式,没有

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。