一种RBFN和FLD融合的说话人识别方法.pdf

ID：54368991

大小：277.75 KB

页数：6页

时间：2020-04-30

资源描述：

《一种RBFN和FLD融合的说话人识别方法.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、118复旦学报（自然科学版）第44卷文章编号：0427-7104（2005）01-0118-04!一种RBFN和FLD融合的说话人识别方法连翰，汪峥，王建军（复旦大学电子工程系，上海200433）摘要：提出一种新的可用于说话人识别的径向基函数网络（RBFN）阵列.RBFN网设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最优权重，该方法并不能得到最优分类效果.使用Fisher目标函数，替代RBF中的误差目标函数来求取最优权重，用与文本无关的闭集说话人识别系统对该算法进行了验证，实验结果表明，该方法提高了RBF分类能力，比传统的RBF算法以及ROLS算法具有更高的识别率，并

2、在识别效果接近GMM方法的情况下计算量大幅度减少.关键词：模式识别；径向基函数网络；Fisher线性分类法；说话人识别中图分类号：TN391.42；TN912.34文献标识码：A说话人识别系统就是用待识语音和预先提取的说话人特征来鉴别或确认说话人的身份.从本质上讲，说话人识别是一个语音信号模式识别问题［1］，它包括训练和识别两个过程.本文讨论的说话人识别仅为与文本无关的闭集问题.说话人识别包括两个重要方面：一个是用来表征说话者声音特性的特征参数；另一个是分类器的选择［2］［3］，把每个说话者模型用.1995年，D.Reynodls等人成功使用无监督学习方法高斯混合模型（GMM）多个高斯

3、模型的加权混合来逼近，在说话人识别中取得较好的识别效果，成为当今说话人识别的通用方法.人工神经网络具有很强的聚类能力和静态分类能力，对分类困难的模式识别问题有很好的效果，因此已有多种类型的神经网络被应用于说话人识别，如多层感知器（MLP），径向基函数网络（RBFN），时滞神经网络（TDNN），学习矢量量化（LVG），模糊神经网络（FNN）等［4］.其中MLP通常采用误差后向传播算法（BP）训练，需要不断的迭代提高其分类能力.相比之下，RBFN训练快捷，若采用Gaussian函数作为它的径向基函数，则RBFN实现了Gaussian型径向基函数加权和，其与GMM具有相同的本质［1］，图1显

4、示了本文基于RBFN分类器的说话人识别系统的基本框架.图1说话人识别系统框架Fig.1DiagramofspeakeridentificationRBF网络的设计一般分为两个步骤：网络中心点的确定和最优权重的计算.网络中心可以由各种动态聚类的方法来选择，如常用的K—Means聚类以及Kohonen的SOM（Self-OrganizingMaps）方法，其中基!收稿日期：2004-05-25基金项目：国家自然科学基金资助项目（60171036，30370392）作者简介：连翰（1982—），男，硕士研究生；通讯联系人王建军教授.第1期连翰等：一种RBFN和FLD融合的说话人识别方法119

5、于输入输出聚类方法（IOC）决定的中心结构较为有效［5］；或者是从样本输入中选取，如OLS（OrthOgOnal［6］算法和ROLS（RecursiveOrthOgOnalLeastSCuares）算法［7］LeastSCuares）.当RBF网络的数据中心确定后，RBFN从输入到输出就形成一个线性方程.一般情况下最优权重可以采用线性最小方差方法，或伪逆阵法来求得.这种以最小线性方差做为目标函数的方法能够使总体方差最小，并不能得到最优的分类效果.因此我们考虑寻找一个新的目标函数来替代传统的最小线性方差，以得到分类更优的权重.Fisher线性分类器是一种早期的针对线性可分割问题的有监督学

6、习方法，该方法试图找到一个最佳投影方向，使得样本投影到低维空间，并且在投影方向上类间离散度最大化，类内离散度最小化.在线性问题上，Fisher分类器可以达到很好的分类效果，我们将Fisher目标函数代替RBF传统目标函数，在说话人识别系统上进行了实验，结果表明，融合Fisher分类法的RBF分类器比传统的RBF网络分类能力更强，在说话人识别率上要高于传统方法以及ROLS算法.本文的说话人识别系统提取的特征参数是广泛使用的MFCC（Mel频率倒谱系数）［8］，由两两说话者组建RBF双分子网［9］，再由这些双分子网构成一个RBFN阵列.1RBFN结构描述RBF神经网络的结构如图2所示.考虑

7、一个7输入单输出RBFN的设计，假设当RBFN已有M个隐节点，且采用Gaussian型径向基函数，此时的RBFN模型为My=!Ii!ci（x）+b；i=1其中x"R7为RBFN输入，y"R为相应的输出，"i为第i个隐节点的输出连接权值，b为输出偏移常数，!（x）=exp（-#x-c#2／T）为Gaussian型径向基ciii函数，c"R7为已有的数据中心，T为该RBF函数的图2RBFN结构ii扩展常数.简单起见本文中令T取固定值.假定NFig.

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种RBFN和FLD融合的说话人识别方法.pdf

一种RBFN和FLD融合的说话人识别方法.pdf

相关文章

相关标签