欢迎来到天天文库
浏览记录
ID:34630586
大小:38.50 KB
页数:6页
时间:2019-03-08
《基于matlab的语音图像视频基础知识new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于Matlab环境下的语音、图像、频信号的基础知识班级:信1104学号:20112785姓名:吕微彪语音信号的表示:语音既是人得发音器官发出来的一种声波,它就是其他各种声音一样,也具有声音的物理属性。它具有以下一些特性:(一)音质。它是一种声音区别其他声音的基本特性。(二)音调,就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢音调低(三)声音的强弱。音强及音量,又称响度,它是由声波震动幅度决定的。(四)声音的长短,也称音长,它取决于发音持续时间的长短。语音信号最主要的特性是随时间而变化的,是一个非常平稳的
2、随机过程。但是,从另一方面看,虽然语音信号具有时变特性,但在短时间范围内其个性基本保持不变。在没有完成状态转变时,可近似认为它不变。因而我们可以采用平稳过程的分析处理方法处理语音。语音信号分析可分为时域,频域,倒频域等方法。时域分析具有简单,运算量小物理意义明确等优点;更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中而相位变化只起很小作用。语音信号的短时谱分析是以傅里叶变换为核心的,其特征是频谱包络与频谱细微结构以乘积的方法混合在一起,另一方面是可用FFT进行高速处理。语音信号处理基本分两种
3、分析方法:数字信号处理和模拟信号处理语音信号的格式:音频格式是指要在计算机内播放或是处理音频文件,是对声音文件进行数、模转换的过程。音频格式最大带宽是20KHZ,速率介于40~50KHZ之间,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度音频文件格式常见的特点有:要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频文件格式的最大带宽是20KHZ,故而采样速率
4、需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。音频格式包括:CDWAVEAIFFAUMPEGMP3MPEG-4MIDIWMARealAudioVQFOggVorbisAMR。其中最常用的有MP3,CD,WMA,APE。吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。。比较作为
5、数字音乐文件格式的标准,WAV格式容量过大,因而使用起来很不方便。因此,一般情况下我们把它压缩为MP3或WMA格式。压缩方法有无损压缩,有损压缩,以及混成压缩。MPEG,JPEG就属于混成压缩,如果把压缩的数据还原回去,数据其实是不一样的。当然,人耳是无法分辨的。因此,如果把MP3,OGG格式从压缩的状态还原回去的话,就会产生损失。然而,APE格式即使还原,也能毫无损失地保留原有音质。所以,APE可以无损失高音质地压缩和还原。在完全保持音质的前提下,APE的压缩容量有了适当的减小。拿一个最为常见的38MBWAV文件为例
6、,压缩为APE格式后为25MB左右,比开始足足少了13MB。而且MP3容量越来越大的今天,25M的歌曲已经算不上什么庞然大物了。以1GB的mp3来说可以放入4张CD,那就是40多首歌曲,已经足够了!MP3支持格式有MP3和WMA。MP3由于是有损压缩,因此讲求采样率,一般是44.1KHZ。另外,还有比特率,即数据流,一般为8---320KBPS。在MP3编码时,还看看它是否支持可变比特率(VBR),现在出的MP3机大部分都支持,这样可以减小有效文件的体积。WMA则是微软力推的一种音频格式,相对来说要比MP3体积更小。
7、[图像表示:每个图像的像素通常对应于二维空间中一个特定的'位置',并且有一个或者多个与那个点相关的采样值组成数值。根据这些采样数目及特性的不同数字图像可以划分为:二值图像 (BinaryImage):图像中每个像素的亮度值(Intensity)仅可以取自0到1的图像。灰度图像(GrayScaleImage),也称为灰阶图像:图像中每个像素可以由0(黑)到255(白)的亮度值表示。0-255之间表示不同的灰度级。彩色图像(ColorImage):每幅彩色图像是由三幅不同颜色的灰度图像组合而成,一个为红色,一个为绿色,另一
8、个为蓝色。伪彩色图像(false-color)multi-spectralthematic 立体图像 (StereoImage):立体图像是一物体由不同角度拍摄的一对图像,通常情况下我们可以用立体像计算出图像的深度信息。三维图像(3DImage):三维图像是由一组堆栈的二维图像组成。每一幅图像表示该物体的一个横截面。 数字图像也用
此文档下载收益归作者所有