欢迎来到天天文库
浏览记录
ID:40721912
大小:2.56 MB
页数:248页
时间:2019-08-06
《音频信息处理技术1》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第3章音频信息处理技术3.1基本概念3.2音频信号数字化3.3音频信号压缩编码3.4语音压缩编码标准3.5常见多媒体应用的语音编码器的选择3.6IP电话技术练习与思考题3.1基本概念1.听觉掩蔽在人类听觉系统中,一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。由于掩蔽声的存在,使被掩蔽声的闻域(人刚好可听到声音的响度)必须提高的分贝数被定义为一个声音对另一个声音的掩蔽值。掩蔽效应受四种要素的影响:时间、频率、声压级、声音品质(例如,纯音和噪
2、音)。2.频谱掩蔽频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。当频率离掩蔽音调越远时,掩蔽效应减弱的速度就越快。可以这样来解释这种效应,雪橇上的铃声可以掩蔽高音碰撞的声音,但不能掩蔽低音鼓的声音。3.瞬态掩蔽声音有一个冲击时间(即幅值随时间推移而增大的时间段)和一个衰退时间(即幅值随时间推移而减小的时间段)。拨小提琴所产生声音的冲击和衰退都很快,而拉小提琴所产生声音的冲击和衰退都很慢。此外,在冲击前和衰退后,声音都有掩蔽效应。前掩蔽时间为50~200ms,而后掩蔽
3、时间约为该范围的1/10。4.失真失真是用得非常广泛的概念,在这里主要用来描述重现声音和原来声音的相差程度。而表示这种相差程度的方法有两种:(1)失真的主观度量。失真的一个主观评价指标称为平均观点分(MeanOpinionScore,MOS)。听众根据系统质量的好坏使用N分制给系统打分。例如,在为HDTV选择音频压缩方案时就使用了这种度量方法。表3.1-1给出了一种常见的5分制系统。表3.1-15分制平均观点分举例平均观点分质量等级主观感觉5极好觉察不到4好觉察得到,但不难听3一般有点难听2
4、差难听,但不反感1极差难以忍受一方面,MOS确实是度量音频重现的最低限度:听起来感觉怎么样?另外一方面,度量的结果随听众、测试位置和原材料的不同而不同,因此,很难将一组结果和另一组结果相比较。(2)失真的客观度量。失真的客观度量是一种可以校准和重现的测试,它可对原始信号和重现信号之间的差别进行度量。这里有个问题,就是失真的绝对大小也许和失真声音使人厌烦的程度没有多大关系。现实生活中有一个失真的例子,我们几乎每天都会碰到,但它并不是那么令人厌烦,这个例子就是削波。如果一个纯音(正弦波)通过一个动态
5、范围不足的放大器,那么,放大器也许会将该正弦波的波峰和波谷拉平,这样就产生了一组奇谐波。对于这种类型的失真,原始(或基波)信号和失真之间有一种一致的对应关系,因此,这种失真并不一定使你感到烦躁。5.声道单声道(Monophonic)意味着单个声源,而立体声并不表示有两个声源,立体声(Stereophonic)指的是三维听觉效果。为了确定声源位置,大脑要将每个耳朵所听到声音的三个属性进行比较,这三个属性分别是:(1)幅值(Amplitude):如果左耳听到的声音比右耳的大,那么我们就认为声音在
6、左边。(2)相位(Phase):如果人的两耳听到的信号具有相同的相位,那么大脑就认为声音在中部;如果两耳听到信号有180°的相位差,那么声音就不包含方向信息了。(3)时序(Timing):声音的传播速度为1英尺每毫秒;如果声音到达右耳的时间比到达左耳的早,我们就认为声源就在右边。一般来说,如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上,则听众就可以享受三维立体声的效果;否则听众就会失去完全的立体声效果,因为他距离其中一个声源的距离更短。声源位置可以通过添加一个中央通道的方法来确
7、定。为此,Dolby公司在上个世纪70年代就实现了由四个声道产生三维立体声的效果,这四个声道分别是:左声道、右声道、中央声道、环绕声道。为了使声音更加丰富,现在的立体声剧院(包括家庭剧院)都增加了一个超低音声道,主要目的是增强低音。3.2音频信号数字化音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术,图3.2-1为音频信息处理结构框图。音频信息的压缩是音频信息处理的关键技术,而音频信号的数字化是为音频信息的压缩作准备的。音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散
8、序列,即数字音频序列,在这一处理过程中涉及到模拟音频信号的采样、量化和编码。对同一音频信号采用不同的采样、量化和编码方式就可形成多种形式的数字化音频。图3.2-1音频信息处理框图(1)采样过程。模拟音频信号是一个在时间上和幅值上都连续的信号。采样过程就是在时间上将连续信号离散化的过程,采样一般是按均匀的时间间隔进行的。目前常见的音频信号的频率范围如图3.2-2所示,由图可见:电话信号的频带为200Hz~3.4kHz,调幅广播(AM)信号的频带为50Hz~7kHz,调频广播(FM)
此文档下载收益归作者所有