自由会话电话语音监控系统探究

自由会话电话语音监控系统探究

ID:46822028

大小:63.00 KB

页数:5页

时间:2019-11-28

自由会话电话语音监控系统探究_第1页
自由会话电话语音监控系统探究_第2页
自由会话电话语音监控系统探究_第3页
自由会话电话语音监控系统探究_第4页
自由会话电话语音监控系统探究_第5页
资源描述:

《自由会话电话语音监控系统探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、自由会话电话语音监控系统探究摘要:本文讨论基于GMM-UBM/SVM的电话语音监控系统。GMM是在识别系统中常用方式,但由于监控语音发话时间短暂,电话-互联网终端及传输线背景噪音大等影响GMM法的识别精度。本研究将发挥GMM的鲁棒性及SVM对小量静态数据具有高分类的优势设计电话语音监控系统。便于比较,本文同时也讨论了量化距离(VQ),加权量化距离(WVQ)及基线系统的识别。在50个目标人训练集,每人发话时间为20秒时,对10秒测试语音提案方法识别率对比于VQ和WVQ法分别提高了20%及16%o关键词:电话语音监控,话者识别,GMM-UBM,SVM1

2、引言话者识别是根据人的语音信号来识别人的一种生物认证技术,通过对话者语音信号的分析处理,自动确认话者是否在所记录的说话者集合中,以及进一步确认话者是谁。话者识别技术按其识别任务可以分为:话者辨认(speakeridentification)和话者确认(speakerverification)0前者用以判断某段语音是若干人中的哪一个人所说,是''多选一”问题;后者用以确定某段语音是否是某个话者所说的,是“一对一”的问题。据科学家分析、人类说话的声音能够表现出一个人的生理、情绪、健康程度、教育状况、居住以及所处的社会环境等许多关联的物理现象,为此在科学

3、上常常用声音的声学参数来标记,观察,辨别一个人的生理特征及身份[1,2,3]。语音是信息重要的载体,随着手机,互联网等方便好用的通讯产业的高速发展,利用电话-互联网等通讯手段的犯罪时有发生,且有逐年上升的趋势。比方说电话诈骗,通过电话,网络终端的非法交易,利用电话的政治煽动事件等都是通过语音信息载体以隐藏的方式作案,直接危害公共安全以及人民群众正常的生活和工作。因此语音监控技术在国家,地区及公共安全领域有着重大的应用价值。目前像话者自动辨认(AutomaticSpeakerIdentificationASI)等应用系统主要依据于语音中所包含的话者特

4、定的信息来自动辨认-识别一个人的身份。这种技术作为生物认证技术在国内外,安全要害部门的出入注册,侦听嫌疑人通话,出入境管理及敏感内容的监控等方面已得到了广泛地应用,需求较大。语音监控技术或者话者识别技术,近年来一直是计算机通信领域的热门研究课题。由于HMM(HaddinmarcovModel)对含噪音的语音信号有着较强的鲁棒性,因此在话者识别得到了广泛的引用,如在研究[4,5,6,71中通过连续语音CHMM(ContinuousCHMM)的方法实现了较好的识别结果。但是,由于HMM对上下文无关时间序列的建模能力有限(需要自动转写内容),因此,近来多

5、数的话者识别的研究均采用一个状态GMM法,即髙斯混合分布模型法(GaussianMixtureModelGMM)O在实现一个基于海量数据的监控任务的话者识别系统时,不仅要考虑电话-话筒,周围环境等一些附加噪音因素,且还要面临被监控对象的发话时间短,变化多等复杂的实际问题。因此在这种场合单用GMM法就不能保证应用系统的精度及可靠性[8]。支持向量(SupportVectorMachineSVM)法,对于小量静态数据有较强的分类能力,近来对语音处理技术中的应用广泛,有不少研究证明通过SVM法可以在语音信号的分类上获取较高的分类效果[9]。面向实际应用话

6、者识别系统,本文研究讨论了如何有效地发挥GMM及SVM这两种方法的优势实现应用系统的方式方法。除此之外,为了得到当前测试语音是否来自目标人注册模型所对应的话者,本系统进一步研讨了基于通用背景声纹模型(UniversalbackgroundModelUBM,由许多的人混合训练获得模型适应目标人模型)的识别方法,即基于GMM-UBM及SVM方式的电话语音监控系统。2系统分析2・1・高斯混合分布模型GMM髙斯混合分布模型GMM法是目前在话者识别技术中常用来建模的有效方法之一。图-1所示话者识别GMM模型的表现形式图。其中表示话者s的M维高斯分布,为均值,

7、为共分散矩阵,而为加权比例系数。实时识别时的数理模型可表示为式(1)和(2):2.2•语音信号传输特性分析话者识别系统的性能受很多因素的影响,如:环境,受话机,录音和信道条件,话者自身特征(如:方言,说话方式,情绪等)以及语种。图-2表示信道特性构造,传输到受话筒的语音是包含多种附加噪音的混合信号。在式(3)中表示信号传输频率,为特征量序列号,而为话者数。可见由于的客观存在,使受话筒信号产生失真。另外考虑到个人声道特性,发话环境杂音及回线杂音等因素时,实际传输到受话筒上的语音信号的数理模型应表现为式(4)的形式,即因此,在设计建立一个实时的话者识别

8、系统时,如何从这样一个复杂的含噪音的信号中提取原有的语音信号是电话语音识别的最大的问题。也是本研究拟去解决的关键性问题支持

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。