使用潜在狄利克雷分解的单声道说话人分离

使用潜在狄利克雷分解的单声道说话人分离

ID:25334249

大小:52.00 KB

页数:5页

时间:2018-11-19

使用潜在狄利克雷分解的单声道说话人分离_第1页
使用潜在狄利克雷分解的单声道说话人分离_第2页
使用潜在狄利克雷分解的单声道说话人分离_第3页
使用潜在狄利克雷分解的单声道说话人分离_第4页
使用潜在狄利克雷分解的单声道说话人分离_第5页
资源描述:

《使用潜在狄利克雷分解的单声道说话人分离》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、使用潜在狄利克雷分解的单声道说话人分离摘要:我们提出了一种使用声谱图的潜在变量分解算法,来从混合的单声道录音里分离出多个说话人。我们将语音信号短时傅立叶变换的每一个幅度谱分量建模成一个离散随机过程的输出。这个离散随机过程产生一系列频率分辨率分量。这个过程被建模成混合多项式分布,这些分量多项式的混合权重在不同的分析窗间变化。这些分量多项式可以认为是属于特定说话人的,而且可以通过对每一个说话人训练信号来得到。我们把每一个说话人的混合权重的先验分布建模成一个狄利克雷分布。代表混合信号幅度谱分量的分布被分解成所有单个说话人多项式分布的混合。通过这种分解,频率分布,或者说每一个说话人的语音频谱

2、将得到重建。1、简介对于单声道说话人的分离问题,比如说从有几个人说话的单声道录音里分离出当前说话人的问题,历史上一直是考虑从频率选择的角度来解决的。为了分离出每一个说话人的语音信号,需要从不完整的视频序列里,重建出混合信号中的受说话人控制的时频分量。对说话人的时频分量的选择在实际中可能是基于感知原理的(如文献【1】),或者是基于统计模型的(如文献【2】),也可能是基于二进制或者概率性的(如文献【3】)。在这篇论文中,我们采用了一种可变的方法,试图为每一个说话人重建全部的频谱,而不是得到部分的频谱描述。特别地,在这种方法中,对每一个说话人,典型的短时谱结构,或者说短时基,从训练数据中学

3、习的到。混合信号被分解成这些短时基的线性组合。单个说话人的信号通过以适当的权值重新组合它们的短时基而被分离。Jangetal(文献【4】)通过对每一个说话人信号的独立分量的到他们的短时基。Smaragdis(文献【5】)则是通过说话人幅度谱的非负矩阵分解得到的。其他人通过适量量化,高斯混合分布模型等方法得到。这篇论文中的算法通过对幅度谱的潜在变量分解识别出说话人的典型频谱结构。最初由Rajetal提出的这种分离说话人的潜在变量模型,基于这样的假设:语音的频谱分量是一个产生一系列频率分辨率分量的离散随机过程的输出。语音信号的每一帧这个过程的几个轮廓。这些帧的幅度谱代表这些轮廓的阶梯柱状

4、图。这个随机过程本身的分布被建模成一个混合多项式分布。这些混合权重被设想从一帧到另一帧发生变化,而具有说话人特性的分量多项式则被设想在各帧中保持不变。在这种帧结构中,分量多项式可以被看作说话人可以产生的基础模型,或者基。每一个分析窗的频谱幅度是这些基的带噪线性组合。在Rajetal最初的模式中,所有的线性组合被认为是一个前提,也就是说任何有效的混合权重集合是和任何其它的权重集相同的。在这篇论文中,我们认为说话人之间有偏差:他们更喜欢表达一些不同于其他人的声音。我们可以通过混合权重的先验概率来捕获这些偏差,而混合权重是我们建模狄利克雷密度得到的。在每一帧中组合得到的分量多项式的权重是从

5、这个密度中得到的。多项式的参数和狄利克雷密度对每一个说话人的混合语音使用EM算法训练得到的。所以这个算法是受控算法,因此说话人的身份和他们语音分布的参数必须预先得到。一个混合信号的频谱被建模成一个二维随机过程的持续轮廓输出。在每一个轮廓中,这个过程首先画出混合语音中的一个说话人,然后一个特定的多项式,最后得到多项式的一个频率指数。为了从每一个分析帧中分离出每一个说话人的频谱,我们在基于从训练数据中得到的权重和说话人特有的多项式分量分布,对每一个说话人的混合权重采用最大后验概率估计。作为混合多项式分布中的每一个频率指数,最终从每一帧中分离出了说话人频谱。论文的其余部分按如下组织:在第二

6、部分,我们简要得描述了幅度谱使用的潜在变量多项式分布。在第三部分,我们描述了学习算法,这些算法包括用来训练得到说话人的多项式分量分布的算法和分离混合信号的算法。第四部分,我们列出了一些实验数据。最后在第五章,我们讨论了这篇论文的结果和可能的外延。1、潜在狄利克雷变量模型一开始,我们假定所有的语音信号通过一个都市傅立叶变换转化成幅度谱矢量序列。在后面的讨论中,频率就是指这些频谱矢量中的频谱。潜在狄利克雷变量模型是潜在狄利克雷配置(文献【7】)改编得到的派生模型。图1.单一潜在狄利克雷变量模型图。在图中,一个三角形代表一个单一结构,每一个角代表一个分量多项式,每一个单一结构中的点代表一帧

7、语音频谱的混合多项式模型。图(a)和图(b)显示了连个说话人单一结构相同而分布不同的情况。图(C)显示了混合信号的模型,其中,每一个内三角形与一个不同的说话人相关,外围的五边形代表混合信号的分布。模型假设一个语音信号的每一个频谱矢量是一个产生频率分辨分量的离散随机过程的几个轮廓。每一个谱矢量的产生过程可以描述如下:l令θ为K维狄利克雷变量,θ从K-1个单一结构中取值,并且具有如下得到概率分布:公式(1)l从由θ定义混合权重的混合多项式中产生几个轮廓--取变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。