语音识别系统软件设计

语音识别系统软件设计

ID:5274216

大小:336.61 KB

页数:6页

时间:2017-12-07

语音识别系统软件设计_第1页
语音识别系统软件设计_第2页
语音识别系统软件设计_第3页
语音识别系统软件设计_第4页
语音识别系统软件设计_第5页
资源描述:

《语音识别系统软件设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第33卷第5期闽江学院学报V01.33No.52012年9月JOURNALOFMINJIANGUNIVERSITYSep.2012语音识别系统软件设计余尤好(莆田学院电子信息工程系,福建莆田351100)摘要:提取语音信号的MFCC特征参数,用矢量量化(VQ)的LBG算法来建立匹配模板.在MATLAB软件平台上,基于GUI界面实现说话人识别系统软件设计。并通过实验验证其有效性.关键词:语音识别;Mel倒谱系数;特征提取;图形用户界面中图分类号:TN912.3文献标识码:A文章编号:1009—7821(2012)05—

2、0061—05DesignofspeechrecognitionsystemsoftwareYUYou.hao(DepartmentofElectronicsandInformation,肌,lUniversity,Putian,Fujian351100,China)Abstract:ThepaperextractsMelfrequencycepstrumcoefficientfeatureparametersofspeechsignal,es-tablishismatchingtemplatebyLBGalgori

3、thmofvectorquantizationinthesoftwareplatform,thedesignofthespeakerrecognitionsystemsoftwarebasedonGUIinterfaceisrealized,andverifytheefectivenessofitthroughtheexperiments.Keywords:speechrecognition;Mel—frequencycepstrumcoefficients;featureextraction;GUI随着语音识别技术

4、的不断发展,在生活中得以广泛应用,尤其在人机交流和语音控制系统中.因此,研究该技术具有很高的应用价值.日常生活中,要通过声音识别一个人,这个人的声音必定是熟悉的.对于语音系统来说也一样,在进行识别前,必须熟悉说话人的声音,这就要求系统原先存储了说话人足够的语音样本,在进行识别时进行比对.让系统熟悉说话人的声音,需要对说话人的声音进行处理提取相应的有用信息,这个过程称为“训练”.通过训练过程,得到模板.在进行识别的时候就可以提取待识别语音特征参数,与训练完的模板进行相似性比较,判决失真度或者两者距离相差的大小.系统的整

5、个识别过程描绘如图1所示,可分成三个模块:预处理模块、特征提取模块、语音识别模块⋯.说话人识别分为说话人确认(speakerverification)与说话人辨认(speakeridentification).说话人确认用以确认某段语音声是否是指定的某个人所说的,说话人辨认用以判断某段语音是若干人中的哪一个所说的.两者识别的基本原理一致,但是识别过程略有差异.对于一个说话人辨认系统,所取的判决依据,是待测语音与模板匹图1语音识别系统配的失真度距离最小的作为与Fig.1Speechrecognitionsystem之对

6、应的说话人.对于说话人确认系统,则通过判断测试待测收稿日期:2012—07—24基金项目:福建省教育科学“十二五”规划2012年度常规课题(FJCGGJ12—034)作者简介:余尤好(1977一),男,福建莆田人,莆田学院电子信息工程系讲师.万方数据62闽江学院学报第33卷语音与已知模型的匹配距离大于或小于一定阈值来做出判决,若小于一定阈值,则接受,大于一定阈值,则拒绝.1语音识别系统模块介绍1.1预处理模块说话人语音并非平稳信号,但在短时间内可以保持平稳,这个范围一般取l0~20ms为宜.因此,可将语音信号分割成短

7、时帧进行分析.但是,如果直接将相邻的语音分割成片段,容易引起频谱泄露.因此,可以用哈明窗对语音信号进行分帧,抑制频谱泄露.为了获得精确结果,理论上这个窗函数不但要覆盖前一个语音片段,而且要衔接后一个语音片段.其中,帧长与采样的频率、采样点个数有关.例如,该系统默认的采样频率为11.025kHz,帧移的长度m设置为100个采样点,窗口长度n设置为256个采样点,相当于覆盖了语音长度为23ms左右的范围,其中当前帧完全覆盖,前后总共覆盖其它语音段14ms,这就保证了频谱的全部覆盖,减少泄漏.1.2特征参数提取模块语音信号

8、经过预处理之后,接着要提取语音特征参数.特征参数的提取通常用到的是LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱系数).倒谱是区别于一般频谱的,这种特征谱是用于表征说话人个性特征,是说话人识别非常有效的特征.通过倒谱分析,可以把说话人识别语音信号的频谱及细微结构部分区分开来.LPCC参数,是LPC(线性预测系数)的一种提升,是一种非常重

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。