语音处理与语音识别简介ppt课件.ppt

ID：59765913

大小：2.18 MB

页数：34页

时间：2020-11-23

资源描述：

《语音处理与语音识别简介ppt课件.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、语音处理与语音识别简介2014年9月1主要内容数字音频基础知识音频处理基础知识语音识别技术简介2主要内容数字音频基础知识音频处理基础知识语音识别技术简介3●是指自然声●是机械振动在弹性介质中传播的机械波●是随时间连续变化的物理量●声音概念●振幅—波的高低幅度，表示声音的强弱●周期—两个相邻波之间的时间长度●频率—每秒钟波振动的次数，单位是Hz●声音特性4声音的强度(响度或音量)，与声波振幅成正比；唱盘、CD盘等声音载体中的音强不变，通过播放设备的音量控制可改变聆听时强度；音频处理软件可提高声源音强声音的特色，主

2、要影响因素是复音；复音指具有不同频率和不同振幅的混合声音，其中最低频率是“基音”，是声音的基调，其他频率的声音为“谐音(泛音)”代表声音的高低，与频率有关；使用音频处理软件对声音的频率进行调整时，其音调也会随之发生变化●声音的三要素●音调——(高低)●音强——(强弱)●音色——(特质)5●声音的频率范围6数字音频声音是振动的机械波，话筒把机械振动转换成电信号，用随时间连续变化的物理量表示，称之为模拟音频。在计算机内部，所有的信息均以数字表示，代表声音信号的物理量也用一系列数字表示，称之为数字音频。模拟音频在时间

3、上是连续的，而数字音频则是一个数据序列，在时间上不具备连续性，因此只能是断续的。当把模拟声音变成数字声音时，需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值，称之为采样。采样得到的表示声音强弱的模拟电压幅值是连续的，把无穷多个电压幅值用有限个数字表示，称之为量化。7●采样采样过程按固定间隔采样声音波形采样声音波形之后的结果声波是连续信号，或称连续时间函数x(t)。用计算机处理这些信号时应先离散化，即按一定的时间间隔(T)取值，得到x(nT)(n为整数)，T称采样周期，1/T称采样频率(每秒钟采样次数)，x(

4、nT)称采样值(或离散信号)采样概念8设连续信号x(t)的频谱为x(f)，以采样间隔T采样得到离散信号x(nT)如果满足：当

5、f

6、≥fc(fc是信号高端截止频率)时，有T≤1/(2fc)或fc≤1/(2T)则可由x(nT)完全确定x(t)。当fN=1/(2T)时，称fN为奈奎斯特频率采样定理奈奎斯特(Nyqust)采样定理：只要采样频率大于或者等于信号中所包含的最高频率的两倍；即当信号是最高频率时，每个周期至少采样两个点，则理论上就可以完全恢复原来的信号。●采样采样方法语音信号频谱在高频处迅速下降，但非限带。应

7、用时只对一定频率范围内的信号感兴趣，就可以对经滤波限带的音频信号采样。这样，在采样前，用一个锐截止模拟低通滤波器对音频信号进行滤波。9●量化通过采样得到的表示声音强弱的函数x(nT)是连续的，为把x(nT)存入计算机，就必须将采样值离散化，即量化成一个有限个幅度值的集合x(nT)量化概念量化原理先将整个幅度划分成为有限个小幅度(量化阶距)的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。如果量化值是均匀分布的，称为均匀量化。设为量化阶距，量化器最大范围是Xmax，则：=2Xmax/2B量化电压幅值

8、之后的结果10●编码音频模拟信号经过采样与量化之后，为把数字化音频存入计算机，需对其编码，即用二进制数表示每个采样的量化值，完成整个模数转换过程编码概念PCM编码一种最方便简单的编码方法是脉冲编码调制，常称为PCM(PulseCodeModulation)编码。是一种未经压缩的数字音频信号，常作为一种参考信号，以便其他编码方法与之比较，或者在此基础上作进一步压缩编码处理11衡量一种编码方法的性能有两个主要指标：码流速率和量化噪声码流速率指的是音频信号编码后每秒钟产生的数据流量，以kbit/s为单位表示，也可以表

9、示为kbps。例如对普通模拟话音用8kHz的频率采样并以8位量化和编码，所形成的音频数字信号的码率便是64kbps。量化噪声是由量化失真引起的噪声，通常表示为量化后的音频信号噪声比，简称信噪比。每增加1位量化精度，信噪比即提高6db。例如在高保真音响系统中，要求信噪比大于90db，则量化精度必须在16位以上。●编码12声道(SoundChannel)是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。单声道（mono）：只有一个声道。

10、普通的单声道录放系统使用一只话筒录音，信号录在一条轨迹上，放音时使用一路放大器和一只扬声器，所以重放出来的声音是一个点声源。●声道立体声（stereo）：有两个声道。在录制声音时，在不同的位置用两只话筒进行录音，而在重放时则使用两路独立的放大器和两个扬声器，从而使听者可以较准确地判断出录音中不同音源的准确位置。1314WAV为微软公司（Microsoft)开发的一种声音文件格式非压缩，

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 34



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

语音处理与语音识别简介ppt课件.ppt

语音处理与语音识别简介ppt课件.ppt

相关文章

相关标签