欢迎来到天天文库
浏览记录
ID:16267599
大小:30.50 KB
页数:4页
时间:2018-08-08
《mpeg-4的音频标准》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、MPEG-4的音频标准曾制定出MPEG-1和MPEG-2视音频压缩标准的运动图像专家组(MPEG)目前正在发展最新的MPEG-4标准,其目标是提供未来的交互式多媒体应用。MPEG-4将制定出与以往不同的、具有高度灵活性和可扩展性的未来新一代国际标准。在音频标准的制定方面,比较以前的音频编码标准,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性、音调变化、可编辑性及延迟等新功能。MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次合成并在一起,在诸多领域内给予高度的灵活性。 MPEG-4中关
2、于音频信号将包括:传统的音频编码标准,即所谓"自然音频"(naturalaudio)和新颖的"结构音频"(structuredaudio)以及自然和合成混合在一起的"合成/自然混合编码"(Synthetic/naturalhybridcoding)简称SNHC。其中SNHC是MPEG-4中关于音视频的一个很重要的概念。 1 传统的自然音频编码 一个基本的概念就是MPEG-4的编码工具不再仅限于支持码率的减少,其各种不同的工具支持从智能语音到高质量多声道音频信号,以及此范围内的音频信号的质量。MPEG-4编码工具支持的其他功能还有: .速度的变化,
3、允许不改变音调实现时间尺度变化; .音调的变化,允许不改变时间尺度实现音调改变; .码率的可分级性,对比特流的分解可在传输或解码器中进行; .带宽的可分级性,代表部分频谱的比特流的一段可在传输或解码过程中被抛弃; .编码器复杂度的可分级性; .强纠错性等。 MPEG-4标准的自然音频编码将码率范围规定为每声道2kbit/s~64kbit/s。在如此宽的范围内定义了三种类型的编码器或叫编码工具。在最低的码率范围2~6kbit/s之间使用的是参数编码(parametriccoding),最适合于采样率为8kHz的语言信号;在6~24kbit/s
4、的码率范围内使用的是编码激励的线型预测编码(codeexcitedlinearpredictivecoding)简称CELP,支持采样率为8kHz和16kHz的语言和音频信号;在最高的16~64kbit/s的码率范围内使用的是时间/频率编码(time/frequencycoding)技术,比如MPEG-2 AAC标准,支持采样率为8~96kHz的任意音频信号。 1.1 参数编码 参数编码提供了两种编码工具:HVXC和HILN。 谐音矢量激励编码HVXC(HarmonicVectoreXcitationCoding)编码工具允许对语言信号在2kbi
5、t/s和4kbit/s之间进行可分级性编码。HVXC的解码过程分四步进行:参数的反量化;对声音帧用正弦合成产生激励信号和加上噪声分量;对非声音帧通过查找码书产生激励信号;LPC(线型预测编码)合成。对合成语言质量的增强可以使用频谱后置滤波。 HVXC提供了在延迟模式上的可分级性。其编码器和解码器可以独立地选择低或正常的延迟模式。 谐音和独立线性加性噪声HILN(HarmonicandIndividualLineplusNoise)编码工具允许对非语言信号,例如音乐以4kbit/s和更高的码率进行编码。HILN支持在速度、音调、码率和复杂度上的可分级
6、性。其独立线性基础解码器从比特流中重建线性参数频率、幅度和包络。增强解码器使用更好的量化对上述参数进行重建,并且对线性参数相位也进行了重建。信号解码的速度可以仅通过改变帧长来实现,音调的改变通过在合成之前利用一个比例因子复合每一个频率参数来实现,而且无须改变帧长,也不会引起相位失真。增强解码器由于对相位进行重建而带来了诸多优点,使解码器输出的信号近似于编码器输入的波形。 可以将HVXC和HILN联合起来使用以获得更宽范围内的信号和码率。可以在两者编码器的输出之间动态地切换或混合。 1.2 CELP编码 CELP的解码器包括一个激励源、一个合成滤波
7、器和一个需要时添加的后置滤波器。 激励源拥有两种分量,一是由自适应码书产生的周期分量,另一个是由一个或多个固定码书产生的随机分量。在解码器中,使用码书索引和增益索引来重建激励信号。激励信号接着通过线性预测合成滤波器,最后,为了获得增强的语言质量,可以使用后置滤波器。CELP支持两种采样率:8kHz和16kHz。 当采样率为8kHz时,码率的可分级性是通过不断加上所谓"增强层"(enhancementlayer)来实现的。在基础码率上以2kbit/s的步长增加,可加的增强层的最大数目是三,意味着可在基础码率上加上2,4,6kbit/s。当采样率为16
8、kHz时,可以通过只使用比特流的一部分来解码语言信号,这就提供了在复杂度上的可分级性。还有一些
此文档下载收益归作者所有