资源描述:
《语音识别在公安工作中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、语音识别在公安工作中的应用中国人民公安大学(自然科学版)2007年第4期N042007JournalofChinesePeople'sPublic§!堡!!()垂箜塑璺语音识别在公安工作中的应用于瑞华(中国人民公安大学安全防范系,北京102600)摘要语音识别是根据语音波形中反映说话人生理,心理和行为的语音特征参数识别说话人身份.由于其独特的技术优势,语音识别技术在公共安全领域得到越来越广泛应用,为公安部门有效预防犯罪和快速侦查破案,提高工作水平和工作效率提供支持和帮助.随着技术的发展,语音识别必将成为科技强警的重要手段之一.关键词语音识
2、别;公安应用;声纹特征中图分类号D6310引言语音识别是根据语音波形中反映说话人生理,心理和行为的语音特征参数识别说话人身份.它涉及多学科的知识和经验,如信号处理,计算机科学,通信,语言学,生理学,心理学,模式识别等.语音识别属于一种行为特征识别方式,对语音识别技术的研究从20世纪50年代到现在一直非常活跃,随着技术的发展和不断成熟,语音识别必将在公安,司法及生产过程的自动控制等方面得到广泛应用.1语音识别的原理和方法1.1语音识别的可行性语音是由人的发声器官所产生的,其产生过程是声带振动产生声带音,声带音经过调制(传输共鸣),最后由嘴唇
3、辐射出去.由声带产生声源,声带的长短,宽窄,厚薄决定了语音音调的高低.人类语音特征与发声人的发音器官,大脑神经的生理特性,心理素质,心理状态和发声人所生活的言语环境,社会规范密切相关,并且具有相对稳定性和唯一性.稳定性是指人的语音特征在一生中虽然是变化的,但是在一段时期内,特别是生理和作者简介于瑞华(1965一),女,天津人,副教授.?96?心理成熟以后的相当长的时期内具有相对稳定性.唯一性是指它因人发声器官的生理构造及说话时的配合习惯,心理素质,言语水平不同而具有个体特殊性.这些都说明根据语音来识别具体的说话人是可行的,这就是语音识别的
4、前提和基本依据.1.2语音识别的分类根据不同的标准,可以把语音识别分为不同的类型.从对语音的要求上,分为与文本无关的语音识别和与文本相关的语音识别.与文本无关的语音识别指语音不要求特定的语言和内容,而且探测到的语音与测试语料之间也不要求一致;与文本有关的语音识别指探测到的语音应与测试语料相一致.按照应用方式,分为语料分析,说话人辨认和说话人识别.语料分析,是根据某一具体的语料的特点和内容,通过对方言,音调,词汇,语法,口头语等进行直接分析来确定其说话人的性别,年龄,地域,文化水平,职业,身高,体态等身份信息,是一种一对一的识别;说话人辨认
5、,是在众多的语料中判断是否含有与已获取的特定说话人的原始语音材料相同的,发现后将其查找出来,以确定原始语音的说话人身份,是一种多对一的识别;说话人识别,是将获取的某一说话人的语料与数据库中已有于瑞华:语音识别在公安工作中的应用的众多语料进行比对,以确认此说话人的身份,是一种一对多的识别.1.3语音识别系统的基本原理语音识别是一种多维模式的识别系统,一个完整的语音识别系统包括语音材料获取,声纹特征提取,语音模式匹配三个部分.1.3.1语音材料的获取原始语音材料的获取是进行语音识别的首要问题,这就需要语音记录,传输和存储等方面的技术和设备来支
6、持.声音经过记录,存储,传输到声音播出时的质量常常只能达到记录时采样频率的一半,因此须采取双倍采样率才能将原音准确重现.由于人说话的语音频率大约为10KHz,在一般的语音识别系统中,对此频率加倍采样,采样频率达到22KHz即可.虽然采样率越高,所记录下来的音质就越清晰,但同时采样所记录下来的数据所需的存储空问就会越大.1.3.2声纹特征提取声纹特征提取即提取声音信号中所表征的说话人的基本特征,该特征能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定.说话人特征大体归为以下几类:(1)基音轮廓,共振峰频率带宽及其轨迹.这是基于发声器
7、官生理结构的特征参数.(2)谱包络参数.声音通过滤波器组输出,以适当的频率对输出抽样,作为声纹特征参数.(3)听觉特性参数.这是模拟人耳对声音频率感知特性而提出的,如感知线性预测等.人耳朵所能听到的频率范围约在20~20000Hz之间,能听到的最低声强约为10W/m,可见人耳对声音的接收本领是非常强的.(4)线性预测系数.线性预测与声道参数模型相符合,将它导出的各种参数,如反射系数,自相关系数,线性预测系数等作为识别特征.1.3.3语音模式匹配(1)矢量量化.以量化产生的失真度作为判决标准,识别精度较高,判断速度较快.(2)概率统计.因为
8、短时问内语音信息相对平稳,通过对稳态特征参数统计分析,利用均值,方差等统计量和概率密度函数进行判决.其优点是不用对特征参量在时域上进行规整,适合文本无关的说话人识别.(3)动态时间规整.说话人