语音声纹识别技术及应用

语音声纹识别技术及应用

ID:11308589

大小:3.88 MB

页数:75页

时间:2018-07-11

语音声纹识别技术及应用_第1页
语音声纹识别技术及应用_第2页
语音声纹识别技术及应用_第3页
语音声纹识别技术及应用_第4页
语音声纹识别技术及应用_第5页
资源描述:

《语音声纹识别技术及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、语音声纹识别技术及应用洪青阳副教授qyhong@xmu.edu.cn厦门大学信息科学与技术学院2010年5月主要内容声音处理技术语音识别技术声纹识别技术技术演示2声音处理●声音的三要素●音质声音的三要素是音调、音色和音强音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比

2、(SNR)有关。●文件数字化的音频文件主要分为4类:波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”。MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。声音处理声音处理获取声音●获得CD中的声音●录音●声音转换如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是“采样”。可以使用Eas

3、yCD-DAExtractor、CoolEdit等音频处理软件对音频进行编辑和处理。要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用Windows的“录音机”转换即可,并且转换功能很强。如果要进一步处理,可采用CoolEdit(AdobeAudition)工具软件。短时能量和过零率语音分帧每帧10-30ms,帧间隔10ms短时能量对数平方和绝对值过零率(ZCR)6参数提取的预处理预加重:—减少尖

4、锐噪声影响,提升高频部分加窗:Hamming—减少Gibbs效应7各种参数的比较LinearPredictionCepstrumCoefficients(LPCC)假定所处理信号为自回归信号(不适用辅音);计算简单,但抗噪性差。Mel-FrequencyCepstrumCoefficients(MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量辅助作用,需归一化。音调对算法要求高,适于二次判别。8Mel-频率目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1k

5、Hz以上,与频率成对数关系Mel频率定义1Mel—1kHz音调感知程度的1/10009Mel-频率公式:频率-Mel-频率:--频率--Mel-频率Mel-频率频率(Hz)10MFCC计算流程:11DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC主要内容声音处理技术语音识别技术声纹识别技术技术演示12语音识别AutomaticSpeechRecognition(ASR)的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话,实现从声音到文字的转换。13语音识别—基本术语特定人和非特定人(话者相

6、关或话者无关)词汇量(大,小)孤立词,连接词,关键词和连续语音自然发音和朗读发音口音(方言)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(MFCC)解码(Viterbi)14语音识别—基本术语识别指标:SER(SentenceErrorRate,句子错误率)WER(WordErrorRate,词错误率)CER(CharacterErrorRate,字错误率)PER(PhoneErrorRate,音节错误率)采样率,8kHz(电话或手机),16kH

7、z(麦克风)时域,频域端点检测,静音检测或有效音检测(VAD)15语音识别—分类孤立词识别识别单元是有限的,单个的词;优点:速度快,识别正确率高缺点:应用范围窄,不能识别词表外的词应用案例:语音命令,手机语音拨号连续语音识别识别单元可以是字,词或者句子优点:应用范围广缺点:速度慢,识别率不高,尤其是词表较大的时候应用案例:语音翻译,语音短信,听写机,语音邮件关键词识别识别单元是词,判断输入语音中是否含有词表中的词优点:能够处理连续语音,词表可定制缺点:速度较慢,词表越大,错误率越多应用案例:电话呼叫服务,电话安全监听16语音识别发展历史50

8、年代-AT&TBellLab,可识别10个英文数字60年代-LP较好地解决了语音信号产生模型,DP则有效解决了不等长语音的匹配问题。70年代-DTW(DynamicTimeWar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。