发展现状 声纹识别 听声辨人.doc

发展现状 声纹识别 听声辨人.doc

ID:57308394

大小:54.50 KB

页数:8页

时间:2020-08-11

发展现状 声纹识别 听声辨人.doc_第1页
发展现状 声纹识别 听声辨人.doc_第2页
发展现状 声纹识别 听声辨人.doc_第3页
发展现状 声纹识别 听声辨人.doc_第4页
发展现状 声纹识别 听声辨人.doc_第5页
资源描述:

《发展现状 声纹识别 听声辨人.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、声纹识别听声辨人北京大学信息科学中心视觉与听觉信息处理国家重点实验室吴玺宏2001/08/23  近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。  声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,

2、并不考虑说话人是谁,它强调共性。历史与现状  对声纹识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta目视观察语谱图进行识别,提出了“声纹(voiceprint)”的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。Bell实验室的S.Pruzansky提出了基于模式匹配和概率统计方差分析的声纹识别方法,而引起信号处理领域许多学者的注意,形成了声纹识别研

3、究的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于声纹识别。  70年代末至今,声纹识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。如今,声纹识别技术已逐渐走入实际应用,AT&T应用声纹识别技术研制出了智慧卡(smartcard),已应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用声纹识别技术,于1998年完成了CAVE(CallerVerificationi

4、nBankingandTelecommunication)计划,并于同年又启动了PICASSO(PioneeringCallAuthenticationforSecureServiceOperation)计划,在电信网上完成了声纹识别。同时,Motorola和Visa等公司成立了V-commerce联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的Speak

5、EZ等。  国内开展声纹识别研究比较早的机构有北京大学、中科院声学所、中科院自动化所、清华大学等,并先后得到了国家自然科学基金重大和重点项目、攀登计划等基金的支持,取得了丰硕的研究成果。说话人识别系统的典型结构图物理基础  语音是由发声器官运动产生的。发声器官包括喉、声道和嘴。气流通过喉中的声门,引起声带的周期性振动,形成周期性的脉冲串并进入声道,周期性脉冲的周期称为基音周期。气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,其间的传输通道称为声道。声道是具有某种谐振特性的腔体,当气流通过时,输出的气流频率特性,即

6、声门脉冲串的特性,取决于声道的特性。嘴的作用是完成气流的向外辐射,嘴张开时的形状对语音频谱有影响,但较声道次之。  发声的器官和过程确定了语音中特定说话人信息的形式,其中声道的形状是最重要的生理因素。另外,发声的习惯,包括发声速度、韵律和口音构成了语音中特定说话人信息的后天行为因素。语音中的特定说话人信息构成了声纹识别的物理基础。技术原理  基于不同的应用环境,声纹识别分为说话人辨识和说话人确认。说话人辨识是指识别说话人是否已经注册,是哪一个注册人;说话人确认是指识别说话人的身份与其声明的是否一致。  用户在使用

7、声纹识别系统时,需要向系统提供一段语音,根据发音材料,可分为文本有关(text-dependent)和文本无关(text-independent)两种。与文本有关的识别系统要求用户按照规定的内容发音,并根据特定的发音内容建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,因而要建立精确的模型较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨识分

8、为开集(open-set)辨识和闭集(close-set)辨识,显而易见,闭集辨识的结果要好于开集辨识,但开集辨识与实际情况更为一致。  无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个发音是现场发音还是录音回放。但文本提示的说话人识别系统可以有效地防止这种情况发生。具体实现时,可采用随机或其他方法来生成提示文本,如随机的数字串,以使假冒者无法事先录音。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。