文本无关说话人识别探究

文本无关说话人识别探究

ID:32985084

大小:60.78 KB

页数:9页

时间:2019-02-18

文本无关说话人识别探究_第1页
文本无关说话人识别探究_第2页
文本无关说话人识别探究_第3页
文本无关说话人识别探究_第4页
文本无关说话人识别探究_第5页
资源描述:

《文本无关说话人识别探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文本无关说话人识别探究摘要:介绍说话人识别技术发展情况,阐述包括特征提取、识别算法和区分算法在内的文本无关说话人识别系统的整体技术框架和基本工作原理针对文本无关说话人识别相关技术给出了近几年主要发展的髙斯超向量一支持向量机模型(GSVSVM)、联合因子分析模型(JFA)和鉴别性向量(ivector)模型,并对3种模型进行了分析比较:指出GSVSVM模型可以提高识别系统性能;JFA模型能提高系统性能但计算量过大,难以实现应用;ivector模型降低了计算量,并能提高识别精确度和效率,是目前的研究热点。最后指出当前文本无关说话人识别的研究

2、难点和热点。关键词:文本无关;说话人识别;特征提取;模式识别中图分类号:TP391文献标识码:A文章编号:10053824(2013)040048050引言说话人识别是从说话人所发语音中提取说话人是谁的信息的过程。说话人识别和通常所说的语音识别有较大区别,语音识别的目的在于想知道说话人所说的内容,而说话人识别的目的是想知道谁在说话而不关心所说的内容。说话人识别按照说话内容的类型不同分为文本有关(textdependent)和文本无关(textindependent)2种[1]。文本有关要求识别和训练时说同样内容的语音,文本无关则不需要

3、所说内容相同。可见,文本无关说话人识别具有更广泛的应用。说话人识别的研究始于20世纪30年代,早期的主要工作集中在利用语音波形信号进行说话人识别方面。1962年Bell实验室的Kesta提出使用语谱图进行说话人识别的方法[2]。语谱图直观明了,类似于指纹识别,故说话人识别又称为声纹识别o1969年Luck提出倒谱(Ceptrum)技术[3],1976年Atal等人提出线性预测倒谱系数(LPCC)[4],提高了说话人识别的精度。说话人识别模型方面,60年代,主要采用模板匹配的方法,70年代,动态时间规整(DTW)和矢量量化(VQ)技术成

4、为主流,说话人识别性能得到了较大的提高[5]o80年代后,Davis提出将Mel频率倒谱参数(MFCC)用于说话人识别[6]。MFCC由于考虑了人耳的听觉感知机理,具有较好的识别效果和噪声鲁棒性,成为说话人识别中使用的主流参数。此时,隐马尔科夫模型(HMM)也在语音识别领域得到了成功和广泛的应用,成为语音识别的核心技术[7]。90年代后,Reynolds将高斯混合模型(GMM)应用到了说话人识别:8],GMM以其简单灵活有效以及具有较好的鲁棒性特征,迅速成为当时的主流技术o2000年左右,Reynolds又提出GMMUBM结构用于文本

5、无关说话人识别,降低了GMM对训练集的依赖,文本无关的说话人识别开始从实验室走向实用[9]。2006年,Campbell在GMMUBM结构基础上提出高斯超向量(supervector)概念,并与支持向量机融合为高斯混合超向量支持向量机模型(GSVSVM)用于文本无关说话人识别[10],成为目前国内外文本无关说话人识别的主流技术。近年来,学者们又在高斯超向量基础上,提出了联合因子分析(JFA)[11]、鉴别性向量(ivector)[12]等模型,使得文本无关说话人识别系统的性能有了突飞猛进的提高,上述3种模型已成为美国国家标准技术研究院

6、(NIST)组织的文本无关说话人识别测评中占主导地位的技术。说话人识别的发展历程如图1所示。2文本无关说话人识别的关键技术从文本无关说话人识别系统基本原理可以看到,说话人识别的关键技术主要包括特征提取和识别模型。2.1特征提取说话人识别系统中的特征提取就是提取语音信号中说话人的基本特征,此特征应能有效区分不同的说话人,且对同一说话人的变化保持相对稳定。说话人识别的语音参数从低到高大致可分为以下3类:一是声学特征(spectral),主要包括底层声学参数,如倒谱参数等;二是韵律特征(prosodic),主要包括音高、共振峰、语速、基音周

7、期等;三是高层特征(highlevel),主要包括词法、常用语和口音信息等。由于高层参数和韵律参数对语音时间要求较长,不易量化,目前实际应用的说话人识别系统主要使用底层的声学特征参数,如线性预测倒谱参数LPCC、Mel频率倒谱参数MFCC等[13]o2.2识别模型说话人识别的识别模型大致可以分为模板匹配、概率模型和区分模型等几类。1)模板匹配法。即在训练过程中从每个说话人发出的训练语句中提取能区分描述各说话人特性的特征矢量,以此为参考模板。识别时,对待识别语音用同样的处理方法提取识别模板,之后根据与参考模板的相似程度进行判断。常用的方

8、法有动态时间规整法(DTW)、矢量量化法(VQ)等。目前这类方法基本被概率模型和区分模型所取代。2)概率模型法。即采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数作为说话人模型。同时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。