欢迎来到天天文库
浏览记录
ID:39707123
大小:708.50 KB
页数:36页
时间:2019-07-09
《数字电视原理与应用第09章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章数字声频压缩编码及应用9.1人耳的听觉特性9.2声频数据压缩编码9.3声频压缩标准9.1人耳的听觉特性9.1.1心理声学有关人听觉的研究包含人耳的生理结构,以及人的大脑对声音信息的翻译等方面的内容。心理声学研究的是人对所听到的声音的主观反映。人耳对声音频率的响应是对数的,这可以通过人耳对音程的感觉加以说明。当频率相近的两个声音同时发声时会产生拍频。9.1.2人耳的生理结构和临界频带1.人耳的生理结构人耳将声能转换成机械能,并最终将电脉冲传送至大脑,大脑能感知到声音中包含的信息,图9-2所示的是人耳的生理结构解剖图。图9
2、-2人耳的生理结构和构造剖示图2.临界频带对基底膜的研究表明:人耳中大约包含有30,000个沿着基底膜排列的多列绒毛细胞,每列大约32mm长,这就是所说的螺旋器。Bark(以德国的物理学家GeoryHeinrichBarkhausen的名字命名的)是感知频率的单位。我们用Bark来度量临界频带的比值,一个临界频带具有一个Bark的宽度,1/100Bark相当于1美。音调定位理论进一步解释了基底膜的作用。9.1.3听觉阈和掩蔽人耳听觉阈范围内临界频带的例子说明了随着绝对频率的增高,临界频带也增宽。影响人听力的两个基本现象是最小听
3、觉阈和掩蔽。听觉阈曲线描述的是人耳对某一给定频率的音调音能够检测或听到的最低声级。当某一音调音使其附近的频率区域的听觉阈的阈值曲线向上推移时,就说明产生了幅度掩蔽。基底膜的机理可以解释掩蔽现象。当声音发声在时间上很接近,但不是同时的时候会发生瞬时掩蔽。一个信号可以被在此之后发生的另一个信号(或噪声)所掩蔽,这称为预掩蔽(有时也称为后向掩蔽)。另外,在一个信号开始之前结束的另一个信号(或噪声)也可以掩蔽这个信号,这称为后掩蔽(有时也称为前向掩蔽)。瞬态掩蔽理论认为:大脑对一段时间内的声音进行积分处理,并且在听觉皮层上处理脉冲形式的信
4、息;另外,大脑处理强的声音要快于弱的声音。9.2声频数据压缩编码数据压缩编码器就是在量化误差最小的同时,以压缩的数据率来表示声频信号。频域编码器有两种类型:子带和变换编码器。一般而言,子带编码器具有出色的时间分辨率,但频率分辨率差;而变换编码器有出色的频率分辨率,但时间分辨率差。子带和变换编码都是针对一定的采样块进行工作的。该采样块必须保持短一点,以使其处在人耳的瞬态分辨率之内。9.2.1感知编码的原理所有数据压缩系统的目的就是减低数据率、采样频率和字长,这一目的可以通过降低采样频率来达到。但是,奈奎斯特理论指出,采样频率的降
5、低相应地也会减小声频带宽的高端频率。另一种方法是减少字长,但是这会造成声频信号动态范围的下降,每减少一比特,动态范围减小6dB,因此造成量化噪声的增加。9.2.2子带编码子带编码是由贝尔实验室于20世纪80年代初首先提出的,并在此后的十年内欧洲对此进行了不间断的研究工作。其中,图(a)所示的为高分辨率的窄带采样;图(b)所示的为归一化和被比特率压缩的子带采样;图(c)所示的为重建的带有被掩蔽的本底噪声的采样。图9-9子带编码原理框图解码器利用量化的数据来重新构成每个块中的采样,利用一个反向合成滤波器组将子带信号相加来重建宽带的输
6、出信号。其中,图(a)所示的为24个频带的子带滤波器的输出;图(b)所示的为计算每个子带的平均电平;图(c)所示的为计算每个子带的掩蔽级;图(d)所示的为闻阈之下的子带不进行编码,闻阈之上的频带进行编码;图(e)所示的为根据掩蔽阈之上的峰值电平情况进行比特分配。图9-10子带编码示意图9.2.3变换编码在变换编码中,时域声频采样块被转换到了频域。编码器可以采用诸如离散傅立叶变换(DFT)方法——快速傅立叶变换(FFT)来进行变换,或者采用改进的离散余弦变换(MDCT)来进行变换。时域采样被变换到频域,会产生谱系数。其中的系数数
7、目有时被称为频率箱(Bin)数目,9.3声频压缩标准9.3.1MPEG-1声频压缩标准国际标准化组织(ISO)和国际电工委员会(IEC)组成的活动图像专家组(MPEG)颁布了ISO/IEC11172国际标准“对以1.5Mbits/s左右数据率进行的数字存储媒体的活动图像和相应声频的编码”,它用来对数字视频和声频信号进行数据率压缩,它于1992年11月最终定稿,即通常所称的MPEG-1。MPEG-1标准是专门开发用来支持在1.41Mbit/s的CD带宽上进行CD质量重放的声频和视频编码的。MUSICAM(掩蔽型通用子带综合编码和复用
8、)是早期开发的一种成功的感知编码算法,它是由MASCAM(掩蔽型自适应子带编码和复用)派生出来的。MUSCAM将输入的声频信号分成32个子带,并利用最小听阈和掩蔽创建的编码模型来取得数据压缩。在复杂性和编码延时方面,MUSICAM是相当不错的。1.
此文档下载收益归作者所有