欢迎来到天天文库
浏览记录
ID:32603917
大小:2.66 MB
页数:49页
时间:2019-02-13
《文本无关的电话语音说话人确认的特征域信道补偿方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第一章绪论1.1说话人识别发展对说话人识别的研究始手20世纪30年代。最初是在第二次世界大战期间,美国国防部向贝尔实验室提出的课题,目的是根据窃听的电话语音进行判断说话人是哪一位德国高级将领,这对分析当时的德军战略部署具有重要的意义。早期的说话人识别工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。BeII实验室的L-G.Kesta采用日视观察语谱图进行识别,提出了“声纹lvo.ce州ntll.【11的概念。但是语谱图难以量化,要由专门训练过的人
2、员进行识别。电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。60年代末70年代初语音识别被作为一个课题展开研究并取得了实质性进展。语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出【2.5】,有效的解决了语音信号的特征提取和不等长匹配问题。这~时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定入孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论【6】【7】。随着应用领域的扩大,小
3、词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二。连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co·aniculaf.on)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。。实验室语音识别研究的
4、巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学lCamegieMe¨onUnivers计y)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。此时说话人识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBe¨第一章绪论实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,
5、从而为更多研究者了解和认识,从而使统计方法成为了开始应用于说话人识别。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。20世纪90年代,ReynoIds对高斯混合模型(GaussianM.xtureModeI,GM
6、M)做了详尽介绍后【8】【9】,GMM以其简单灵活有效成为文本无关说话人识别的主流技术。GMM可以表示为若干个高斯概率密度的线性组合,因而可以看作是只具有一个状态的HMM,因为没有状态间的转移,降低了语义相关的时序信息的影响,通过收集说话人的训练语音提取特征建立GMM,能够对说话人总体的发音特征分布进行拟和,从而代表了该说话人与文本无关的统计特征分布。2000年左右,ReynoIds在说话人确认任务中提出了UBM.MAP【10】的结构,降低了GMM对于训练数据的依赖,说话人模型训练只需要较少的自适应语音。当前
7、各种新的说话人识别技术层出不穷,如大规模连续语音识别技术fLGrgeVocabularyCont.nuousSpeechRecogn_ition,LVCSR)111】应用于文本无关的说话人识别,SVM与GMM的结合【12】【13】,语音信号中高层信息的应用等,然而目前最成熟的技术仍然是基于GMM的。1.2说话人确认概述1.2.1说话人确认组成根据任务不同,说话人识别(SpeakerRecognition)又可以分为说话人辨识(Speakerldentificat.on)和说话入确认(SpeakerVer.f.
8、cafion),本文的研究内容是针对说话人确认展开的。说话人确认(SpeakerVerifica“on)是根据说话人的语音来确定是否是其所声明的身份(如图1.1所示)。2第一章绪论判决结果(是/否)图1-1说话人确认基本框图说话人确认系统由三个部分组成,即前端处理、说话人建模以及判决。前端处理负责对高冗余度的语音波形信号进行预处理,去冗余,然后提取出易处理的,我们所感兴趣的代表说话人特征的信息,也就
此文档下载收益归作者所有