孤立词语音识别中期报告

孤立词语音识别中期报告

ID:9015337

大小:255.62 KB

页数:12页

时间:2018-04-15

孤立词语音识别中期报告_第1页
孤立词语音识别中期报告_第2页
孤立词语音识别中期报告_第3页
孤立词语音识别中期报告_第4页
孤立词语音识别中期报告_第5页
资源描述:

《孤立词语音识别中期报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、1 课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。国内有不少

2、语音识别系统已研制成功。在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。  随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。语音识别作为人机交互的一项关键领域,具备了实时

3、,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。例如,驾驶员在高速行驶的汽车内电话拨号,飞行员在飞行过程中发出必要的命令等,都需要语音识别系统,另外语音识别也给失明者带来很大的帮助。2 课题任务  探讨基于MATLAB的多个特定人孤立词语音识别的方法,期望在进行端点检测时,能进一步提高识别率。该设计要求采用TW算法。主要任务:1、理论分析,提出设计方案;2、语音采集;3、特征提取,形成训练集;4、特定人孤立词语音识别算法

4、的程序实现。3 基本原理123.1语音识别的基本原理  语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。图1为语音识别系统的原理框图。 失真测度识别识别结果训练模式匹配 模型库逐帧特征 提取 预处理语音信号                   图1语音识别系统的原理框图    根据对说话人发音方式的不同,语音识别研究的内容可以分为孤立词识别系统、连续字语音识别系统及连续语音识别系统。本次毕设研究的是孤立词语音识别。3.2

5、孤立词语音识别系统的设计  孤立词语音识别系统指人在发音时,以单字的发音方式向语音识别系统输入语音,词语词之间要有足够的时间间隙,以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。图2为孤立词有语音识别系统的原理框图:12预处理特征提取超音段特征提取参考模式库模式识别训练后处理器识别结果输入语音             图2孤立词语音识别系统3.2.1语音信号的采集  Windows自带了一个录音机程序(简称录音机),通过它可以驱动声卡采集、播放和简单处理语音信号。语音信号的采

6、集可以用麦克风直接录制人的语音,也可以通过音频线或者MIDI线将收音机、电视机或磁带录机中的语音信号采集到计算机中。在录音机中可以进行简单的声音处理,如加大或降低音量,加速或减速,声音的反转或添加回音效果等。加速或减速的改变可以完成变音功能,反转可以达到对声音文件保密的功能。  通过windows自带的录音器,分别由我和同学录入了2组数据(1人1组),每组10个音频文件,分别为从“零”到“九”的汉语发音。其中一组为参考模板,另外一组为测试模板。3.2.2端点检测  语音信号录制进来后,不论是识别孤立词

7、还是识别连续词都必须做语音分段,即语音端点检测,找出语音段的开始和结尾,这可借助于语音信号的短时能量和过零率。有声音段的能量值较大,无声音段的过零率较高,因此可以通过计算短时能量大致判断语音的端点,然后使用过零率找到语音端点的相对精确位置,分解出每一个语音段。12整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。系统中使用一个变量来表示当前所处的状态,在静音段,如能量或过零率超过了低门限,则开始标记起始点,进入过渡段。在过渡段,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要

8、两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。如果在过渡段中两个参数的任意一个超过了高门限,就可以确信进入语音段了。  端点检测时,首先根据短时能量进行初步判断,此时对终点的检测已比较准确,但由于大多数声母是清声母,它的能量相当弱,依靠能量无法将其与无声段区分开,所以在进行起点检测时,很难仅仅通过短时能量进行判断,但对于清辅音而言,它的过零率明显高于无声段,所以可以根据短时过零率进一步准确检测。图3为端点检测的流程图:12 否否是 是否发

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。