语音识别与语义识别

语音识别与语义识别

ID:47979860

大小:98.73 KB

页数:6页

时间:2020-01-18

语音识别与语义识别_第1页
语音识别与语义识别_第2页
语音识别与语义识别_第3页
语音识别与语义识别_第4页
语音识别与语义识别_第5页
资源描述:

《语音识别与语义识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、声音实际上是一种波语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。   语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。目前大多数语音识别技术是基于统计模式的,从语音产生机理来看,语音识别可以分为语音层和语言层两部分。当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应

2、于语音到音节概率的计算和音节到字概率的计算。一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。(1)预处理模块:      对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。(2)特征提取:       去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量

3、序列,以便用于后续处理。       目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。      在sphinx中,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示

4、。语音识别基础语音信号的采样和量化语音信号是一个时间和幅度都连续变化的一维模拟信号"而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模/数(A/D)转化"模/数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号"根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形"正常人的发音范围是从40Hz到340OHz左右,因此在实验中,本文对语音信号的采样频率均为skHz"2语音信号的预加重语音信号从嘴唇辐射后,高频端大约在800Hz以

5、上有6dB/倍频的衰减"因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)"预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析".3语音信号的加窗处理为了能对语音信号进行处理,我们可以假定在IOms一30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定"因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗"。目前应用最为广泛的是汉明窗4语音信号的端点检测其目的是从语

6、音信号中检测出语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率"常用的端点检测是基于双门限比较法〔,,的端点检测,就是根据语音信号的特征参数(能量和过零率)进行清音!噪音判别,从而完成端点检测的"经过对语音信号的预处理之后就要进行特征参数的提取,对特征参数的要求是:1!能有效代表语音特征,具有良好的区分性;2!特征参数之间有良好的独立性;3!特征参数易于计算,最好能保证语音识别的实时实现"特征提取(包括分帧)、音素建模、字典、隐式马尔科夫模型语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。特征提取就是从语音信号中提取出语音的特征

7、序列"提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量"语音识别技术中最流行的特征参数是基于声道模型和听觉机理的LPCC(LinearPredietiveCepstralCoefieientS)和MFCC(MelFrequeneyCepstralcocfioionts)参数,线性预测倒谱系数(LPCC)和美尔频率倒谱系数(MFCC)"语音识别过程就是根据模式匹配原则,按照一定的相似性度量法则,使未知模

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。