一种基于高斯混合模型的说话人识别的有效评分算法

一种基于高斯混合模型的说话人识别的有效评分算法

ID:8799527

大小:491.50 KB

页数:5页

时间:2018-04-08

一种基于高斯混合模型的说话人识别的有效评分算法_第1页
一种基于高斯混合模型的说话人识别的有效评分算法_第2页
一种基于高斯混合模型的说话人识别的有效评分算法_第3页
一种基于高斯混合模型的说话人识别的有效评分算法_第4页
一种基于高斯混合模型的说话人识别的有效评分算法_第5页
资源描述:

《一种基于高斯混合模型的说话人识别的有效评分算法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、一种基于高斯混合模型的说话人识别的有效评分算法摘要:这篇文章提出了一个新的算法,该算法用以降低识别一个用高斯混合说话人模型框架的识别方法的计算复杂度。应用于整个观察序列是已知的,我们举例说明了不可能的说话人模型的快速精简可以通过记录观测向量时间的序列来更新每个说话人模型的累积概率。整体的方法是集成到一个光束的搜索策略和用于减少识别说话人的时间,当需要识别的说话人语音信息是从138人的YOHO语料库中提取时,这种方式通过在标准的全搜索方法140的一个因素和标准的光束搜索方法的六倍的一个因素来实现,

2、。一、介绍通过语音识别说话人的能力在最近的文献中备受关注。说话人识别的应用和认证包括银行电话,计算机安全,以及获得对因特网的安全文件。在基于GMM模型的说话人识别中,该模型被证明与现有的技术相比,能够提供优越的性能。比如说,低至0.7%的错误率已经被报道,该数据是从YOHO语料库采样的总共138个说话人的8千赫语音。然而,由于试验材料的数量和长度的增加,导致进行识别的计算成本也随之大幅增加。这篇文章通过提出的新方法用于降低说话人识别的计算复杂的问题,该方法用光束搜索修剪一新的观测序列重排来实现。

3、二、基于高斯混合模型的说话人识别在高斯混合模型的说话人识别中,语音用特征化的帧同步观测向量来表示:。典型的帧速率是以10毫秒,三维特征从以每个帧瞬间为中心的重叠分析窗口提取。在识别过程中,该系统由一系列从S模型中提取的说话人的观测向量X来表示。说话人识别由说话人模型决定,该模型发现在说话人中后验概率最大化,设为(1)利用Bayes规则,(1)可以表示为(2)假设每个说话人模型同样是可能的,并指出对所有机型相同,识别任务可以概括为寻找(3)其中被假定为模拟多变量高斯分布的混合物,,其中和分别代表混

4、合物质量,均值向量和协方差矩阵第个分布。在式(3)中,观测值被认为是统计独立的,因此时间信息不进行编码的模式。此外,为了避免数值稳定性问题,式(3)使用对数似然计,在一般情况下,使用对角线协方差矩阵产生模拟观测(4)完整的评价(4)要求显著的计算资源,如果说话人模型的数目或者持续时间的实验材料大,那么会比较准确。为减少计算开销的一种常见方法涉及到使用最近邻的一个近似的可能性,则式(4)变换为(5)其中(6)请注意,在混合物相关的常数是完全已知的现有算法运行时,可以预先计算。其他研究也考虑在可能性

5、计算过程中应用波束搜索。在这里,部分和的(5)式在时间中可以用来更新修剪阈值。(7)其中是一组当前的状态(即未修建时)模型,在时间和是用于定义用户控制的波束宽度的常量时。在处理过程中,对数得分低于的说话人模型将被从搜索中消除。三、算法配方典型的语音处理系统通过校准计算来自重叠窗口部分的数据(20至30ms的顺序)来分析言论,在这期间声道特性被假定固定。帧重叠的过程导致表现出高度相关性的相邻观测结果。在说话人识别的情况下,相邻观测值之间的相关性违反原有的统计独立性假设,并且会导致光束搜索结果效率的

6、下降。这是由于数量有限是信息是从观测向量相比所得,因为它们在说话人声学空间中有相似的位置。因此在加工过程中,许多观测前必须检查不可能说话模型,并将其修剪掉。事实上,我们可能会考虑使用可变帧频来处理这个问题(例如,采样语音观测值往往是在快速光谱变化期间,而很少在缓慢变化光谱期间),我们指出这种做法将会丢失掉在整体决定中有用的数据。同样,我们也考虑的方法是选择的观测值是基于频谱距离准则的(例如,当抽样光谱最后的观测值和当前的观测值之间的距离超过一定的阈值时,我们可以使用)。在此,节省的速度可能会超过

7、频谱距离计算的成本。此外,就像在可变帧速率处理策略的情况下一样可能会丢失信息。这篇文章提出的新方法提供了一个廉价的计算方法,来提高从每个观测值中获得的信息。为了实现这一目标,我们假定整个观测序列是已知,并且考虑重新排列观测的时间序列。正是出于这样的事实,参数序列的顺序不影响式(5)中给出的最终决定,重排序列是基于最大化用于更新式(5)中的连续观测值之间是时间间隔。这里提出的观测重排有两个优点:第一,由于观测序列是重新排序的,在可变帧速率处理情况下不会丢失数据;第二,几乎没有计算开销被要求在已提出

8、的标准下重排观测序列。人们能够想到的最大时间间隔是采样来自不同因素的观测值,它们能够被用来快速采样测试条件下的声学空间。该算法描述如下:第一步:初始化。可以形成一个子集,该子集包含一个选自均匀跨载体间隔向量集的向量。第二步:更新可能性得分中所有未修剪的说话人模型。在更新过程中,假设一个如式(7)中所述的阈值,以消除在说话人模型中低于该阈值的模型。第三步:更新整个观测集。第四步:形成一个由先前元素中找到的最接近中点的采样值构成的子集,比如说:如果两个元素同属于一个集合,那么将其中间元素放入新定义的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。