欢迎来到天天文库
浏览记录
ID:52358319
大小:1.31 MB
页数:80页
时间:2020-04-04
《第章 说话人识别.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、第8章说话人识别11基本概念说话人识别(SpeakerRecognition)又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的话者集合中,以及进一步确认说话人是谁。8.1概述说话人识别与语音识别的区别在于,它并不注意语音信号中的语义内容,而是从语音信号中提取出个人的特征,即提取出包含在语音信号中的个性因素。2为什么能识别说话人?人与人间在发音器官上存在着差异,例如在声带和声管形状上的差异;讲话时发音习惯的差异,包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等以复杂的形式反映在说话人语音的波形中。使得每个人的语音都带有强烈的个人色彩。语音是人固
2、有的,不会丢失和遗忘;语音信号采集方便,系统设备成本低;利用电话网络可以实现远程客服。3说话人识别的分类按其识别任务分:说话人辨认(SpeakerIdentification)判断某段语音是若干人中的哪一个人所说,是“多选一”问题。又可分为开集和闭集两种。从已知的一群人中识别出其中的某人,需要使用N个模板,系统必须辨认出待识别的语音是N个人中的哪一位。最重要的性能指标是识别率,即正确识别出说话人是谁的百分率。闭集:假定待识别人一定在集合内。开集:假定待识别说话人可以在集合外。谁的声音?1号人2号人N号人未知说话人的语音(a)说话人的辨认4说话人确认(SpeakerVerific
3、ation)确定某段语音是否是指定的某个人所说,是“一对一”的判别问题。只要使用一个特定的模板和待识别的测试语音进行匹配,系统只会作出“是”或“不是”的二元判决。是i号人的声音吗1号人2号人N号人未知说话人的语音(b)说话人确认5说话人识别的分类根据识别对象的不同将说话人识别分为三类:与文本有关(Text–Dependent):规定内容。与文本无关(Text-Independent):不规定内容。文本提示型(Text-Prompted):由识别装置向说话人制定需发音的文本内容。6说话人识别的特点①话音是按说话人划分,因而特征空间里的界限也应按说话人划分;②该应用宜于区分不同说话
4、人的特征,应找出反映突出的特征和能突出差异的相应的距离量度;③由于说话人识别的目的是识别出说话人而不是所发语音的含义,所以采取的方法也有所不同,包括用以比较的帧和帧长的选定、识别逻辑的制定等。72应用前景电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪,为用户提供防盗门开启功能等等。通信领域,说话人识别技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。8预处理对输入计算机的语音数据进行端点检测、预加重、加窗、分帧。8.2说话人识别
5、方法和系统结构9特征选取往往都要舍去语义内容信息而保留个人特征信息。声音中所包含的个人特征信息有两种,一种是声道长度、声带等先天性发音器官的个人差别所产生的;另一种是由方言,语调等后天性讲话习惯产生的。前者是以共振峰频率的高低、带宽的大小、平均基频、频谱基本形状的斜率等所表现的;后者是以基频、共振峰频率的时间图案、单词的时间长等所表现的。特征选取10在说话人识别中,还应注意应用在较长时段(若干帧范围)内的过渡特征(如音调轮廓特征、倒谱过渡特征等)。这些过渡特征能较好地表征说话人个人的发音习惯,区别说话人。特征选取的准则:(1)能有效地区分不同的说话人,但又能在同一说话人的语音发
6、生变化时相对保持稳定;(2)不易被模仿;(3)尽量不随时间和空间而变化。11说话人识别所用特征:语音帧能量;2.基音周期;3.帧短时谱特征;4.线性预测系数LPC;5.共振峰频率及带宽;6.鼻音联合特征;7.谱相关特征;8.相对发音速率特征;9.LPC倒谱;10.音调轮廓特征;11.K-L特征。说话人特征大体可归为下述几类:谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。12线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测
7、导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。13特征参量的评价方法选取两种分布的方差之比(F比):F比大表示有效。式中:第个说话人的各
此文档下载收益归作者所有