基于说话人聚类的说话人自适应

基于说话人聚类的说话人自适应

ID:30642682

大小:18.91 KB

页数:6页

时间:2019-01-02

基于说话人聚类的说话人自适应_第1页
基于说话人聚类的说话人自适应_第2页
基于说话人聚类的说话人自适应_第3页
基于说话人聚类的说话人自适应_第4页
基于说话人聚类的说话人自适应_第5页
资源描述:

《基于说话人聚类的说话人自适应》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于说话人聚类的说话人自适应摘要本文提出一种改进的基于模型差别度量的说话人聚类(SpeakerClustering)方法,并将该说话人聚类算法结合最大似然线性回归算法(MaximumLikelihoodLinearRegression,MLLR)构成整体的说话人自适应框架。将该方法应用于以音素为识别基元的汉语连续语音识别系统中,可能够提高系统的识别率,较好的满足快速性和渐进性。实验结果表明,该方法能够在仅有一句自适应

2、数据的情况下,使系统字正识率由%提高到%。关键词说话人聚类;说话人自适应近年来,语音识别[1]技术已经日趋成熟,尤其对于特定人的语音识别十分准确。大量实验结果表明,在训练数据都很充分而且各方面的条件都相同时,特定人(SpeakerDependent,SD)识别系统的性能通常好于非特定人(SpeakerIndependent,SI)系统。然而,当某个特定人的训练数据受限时,由于缺少可靠估计模型所需要的足够多的数据,SD系统的这种优越性就不能得到保证。说话人自适应就是在一个针对原说话人充分训练的SD系统中,或是一个对许多说话者充分训练的SI系统中加入少

3、量新说话人的训练语音数据,通过一定的算法使新老数据结合,从而使系统的识别率接近于对新说话人经过充分训练的SD系统的水平。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果是说话人自适应技术的一种[2],就是将原有的训练数据按照一定的算法聚类,识别时选取待识别语音所属类别的模板进行匹配,可以扩大适用人群,提高系统性能。2主要自适应算法说话人聚类是直接根据说话

4、人的某种特性,将训练集中的说话人根据其语音特性分成若干个子集,每一个子集内的说话人都具有某种度量意义下的相似性,然后专门为每个子集训练声学模型,从而得到一组离散度和混叠度较小的说话人聚类模型;测试时,先判断待测试的语音属于哪一个说话人子集,然后用这个子集的声学模型来进行测试[3]。应用较为广泛的是基于说话人特性的和基于模型距离的聚类方法:说话人特性包括说话人的性别、年龄、口音等。这种方法利用先验的说话人的特性,在满足模型训练量的条件下,将说话人分到更小的子集合中。一个最常用的例子就是按性别将说话人进行分类。这种方法通常需要先验知识,也就通常离不开人

5、工干预。的说话人聚类方法直接根据不同说话人对应的声学模型间的距离来进行聚类。首先根据某种模型距离度量方法,建立模型间的距离矩阵,然后完成基于距离矩阵的聚类,其中的关键是声学模型间距离的度量方法。高斯混合模型是基于模型距离说话人聚类常用的模型,GMM的概率密度分布函数是由个高斯概率密度函数加权求和而得到的,如式(1)所示:其中是观测值x在某个GMM模型下的概率密度函数。x是k维的随机向量,是高斯混元的权值。是第i个单高斯分布概率密度函数,如(2)式:课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰

6、当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果对高斯混合模型而言,模型距离的定义最终可以归入分布间的距离衡量。其中常用的有如下几种:欧式距离(EuclideanDistance):马氏距离巴特查里亚距离其中,,表示两个多维高斯分布,为两个分布的均值向量,表示两个分布的协方差矩阵。最大似然线性回归法(MaximumLikelihoodLinearRegression,MLLR)是一种基于变换的方法,它采用一组变换描述从初始模型到说话人自适应(Speake

7、rAdaptation,SA)后模型的变换关系,另外MLLR还能对不同的信道及附加噪声有一定补偿作用。一般认为不同说话人之间的差异主要表现在均值矢量上,式(6)为均值转换的估计式。其中是混合成份s的转移矩阵,是自适应后的均值后的均值向量,是混合成分s的扩展均值向量,其定义如下:可以将一个GMM的参数看作一组语音特征,考察这组特征在另一个GMM中的输出概率。用输出概率来衡量两个模型间的距离[4]。其方法如下:把GMMA的M个混元的均值向量当作M个观测向量,计算这M个观测矢量在GMMB下的概率。类似地,计算GMMB的M个混元的均值向量在GMMA下的概率

8、。定义GMMA和GMMB的单边加权似然度为:其中,CAi表示GMMA第i个混元的权值,μAi表示第i个混元的均值向量,表示

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。