第7章说话人识别

第7章说话人识别

ID:21070810

大小:191.50 KB

页数:22页

时间:2018-10-17

第7章说话人识别_第1页
第7章说话人识别_第2页
第7章说话人识别_第3页
第7章说话人识别_第4页
第7章说话人识别_第5页
资源描述:

《第7章说话人识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.什么是说话人识别(SR)?说话人识别(SpeakerRecognition,SR)技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。在国外,说话人识别技术获得了广泛的研究,同时也有少量成熟产品问世。AT&T、TI与美国著名的通讯公司Sprint都已经展开了在声音识别领域的实验和实际的应用。说话人识别技术有着广阔的市场应用前景。通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、

2、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话

3、人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。2.SR的历史60年代,计算机的应用推动了语音识别的发展。70年代,语音识别领域取得了突破80年代,语音识别研究进一步走向深入进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。我国语音识别研究工作一直紧跟国际水平,国家也很

4、重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。3.语音识别技术语音识别系统的分类方式及依据根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。特征提取模式匹配模型库识别结果语音输入图1语

5、音识别的实现语音分析身份声明模型产生模型存储特征提取距离测量识别判决表征说话人特点的基本特征这些特征应该具有如下特点:(1)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。(2)易于从语音信号中提取。(3)不易被模仿。特征提取声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类:谱包络参数语音信息通过

6、滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。特征提取线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。此外,人们还通过对不同特征参量的组合来

7、提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。说话人识别的几种方法1.模板匹配法模板匹配法的要点是:在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词,数字串或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。2.概率统计方法语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差

8、等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别利用子词单元构成的隐含马尔柯夫模型,构成了一个说话人确认系统,每个子词单元用一个从左至右

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。