欢迎来到天天文库
浏览记录
ID:11238836
大小:190.50 KB
页数:19页
时间:2018-07-10
《第3章 人类话音编码》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第3章人类话音编码随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8kb/s的调制解调器来接收因特网上的64kb/s话音数据流,这是一种单声道、8位/样本、采样频率为8kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(speech)数据编译码标准。其中,G.711使用μ律和A律压缩算法,信号带宽为3.4kHz,压缩后的数据率为64kb/s;G.721使用ADPCM压缩算法,信号带宽为3.4kHz,压缩后的数据率为
2、32kb/s;G.722使用ADPCM压缩算法,信号带宽为7kHz,压缩后的数据率为64kb/s。在这些标准基础上还制定了许多话音数据压缩标准,例如G.723,G.723.1,G.728,G.729和G.729.A等。本章将重点介绍话音编码的基本思想,而详细计算则留给那些开发和具体设计编译码器软硬件的读者去研究。3.1话音编码概要3.1.1话音波形的特性了解话音波形的基本特性对声音数据的压缩编码、声音的识别和文本-声音的转换等都有很重要的意义。 当肺部中的受压空气沿着声道通过声门发出时就产生了话音。普通男人的声道从声门到嘴的平均长度约为17厘米,这个事实反映在声音信号中就相当于在1ms数
3、量级内的数据具有相关性,这种相关称为短期相关(short-termcorrelation)。声道也被认为是一个滤波器,这个滤波器有许多共振峰,这些共振峰的频率受随时间变化的声道形状所控制,例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器(shorttermfilter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在20ms左右。 压缩空气通过声门激励声道滤波器,根据激励方式不同,发出的话音分成三种类型:浊音(voicedsounds),清音(unvoicedsounds)和爆破音(plosivesounds)。1.浊音浊音是一种称
4、为准周期脉冲(quasi-periodicpulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小,它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在2~20-肆拾肆-ms之间,这个周期性称为长期周期性(long-termperiodicity)。图3-01表示了某一浊音段的波形,音节周期大约8ms。这一浊音段的功率谱密度(powerspectraldensity,PSD)如图3-02所示。图3-01浊音段的波形举例图3-02浊音段的功率谱密度举例2.清音清音
5、是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的,如图3-03所示。这一清音段的功率谱密度PSD和图3-04所示。-肆拾肆-图3-03清音段的波形举例图3-04清音段的功率谱密度举例3.爆破音爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音。 某些音不能归属到上述三种音中的任何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。 虽然各种各样的话音都有可能产生,但声道的形状和激励方式的变化相对比较慢,因此话音在短时间周期(20ms的数量级)里可以被认为是准定态(quasi-stationary)的,也就是说
6、基本不变的。从图3-01,-02,-03和-04中可以看到话音信号显示出的高度周期性,这是由于声门的准周期性的振动和声道的谐振所引起的。话音编码器就是企图揭示这种周期性,目的是为了减少数据率而又尽可能不牺牲声音的质量。-肆拾肆-3.1.2三种话音编译码器 通常把已有的话音编译码器分成以下三种类型:波形编译码器(waveformcodecs),音源编译码器(sourcecodecs)和混合编译码器(hybridcodecs)。一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音
7、质介于它们之间。图3-05表示了目前这三种编译码器的话音质量和数据率的关系。图3-05普通编译码器的音质与数据率1.波形编译码器 波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在16kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。 最简单的波形编码是脉冲编码调制(pulsecodemodulati
此文档下载收益归作者所有