欢迎来到天天文库
浏览记录
ID:37823081
大小:1.20 MB
页数:77页
时间:2019-05-31
《第三讲音频压缩编码》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第三讲音频压缩编码•音频压缩编码基本原理•MPEG-1音频压缩算法及标准•MPEG-2Audio•MPEG-4Audio•AC-3音频编码1中国传媒大学1一、音频压缩编码基本原理•1、什么是音频信号?•通常将人耳可以听到的频率在20Hz到20KHz的声波称为声音信号,声音振动被拾音器转换成电信号称为音频信号。•人的发音器官发出的声音频段在80Hz到3400Hz之间;•人说话的信号频率在300Hz到3000Hz,将该频段的信号称为语音信号。2中国传媒大学2一、音频压缩编码基本原理2、音频压缩的可能性(1)声音信号中的“冗余”频域:非均匀功率密度谱,低频能量高,高频
2、能量低。时域:信息冗余度主要表现在幅度非均匀分布,即不同幅度的样值出现的概率不同,小幅度的样值比大幅度样值出现的概率高。4x101140.8130.6120.4110.2100Amplitude9-0.2-0.48-0.67-0.8600.511.522.533.54-100.20.40.60.811.21.41.61.82Time(s)3中国传媒大学3一、音频压缩编码基本原理2、音频压缩的可能性(2)人耳的听觉特性,声音中存在与听觉无关的“不相关”部分。对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。——利用了人耳听觉的心理声学特性。声音主观
3、感受——响度、音调、音色;声音客观特性——振幅、频率、频谱特性;4中国传媒大学4示例视频——https://www.youtube.com/watch?v=qNf9nzvnd1k二、人类听觉系统的感知特性5中国传媒大学5二、人类听觉系统的感知特性听阈-频率曲线两个声音响度级相同,但强度不一定相同,还与频率有关;声压级越高,等响度曲线趋于平坦;人耳对3~4KHz的声音感觉最灵敏;6中国传媒大学6人耳的掩蔽效应•一个较弱的声音的听觉感受被另一个较强的声音影响的现象称为人耳的听觉掩蔽效应。听不到叫被掩蔽声,起掩蔽作用的叫掩蔽声。•被掩蔽音单独存在时的听阈分贝值,为绝对
4、听阈。即安静环境中能被人耳听到的纯音最小值。也称静听域。•频域掩蔽/时域掩蔽。7中国传媒大学7掩蔽效应演示——Simultaneousmasking.mp48中国传媒大学81、频域掩蔽(纯音间的掩蔽)一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。https://www.youtube.com/watch?v=2HDka19hYiCk中国传媒大学9Effectonthresholdfor1kHzmaskingtoneLi&10Drew中国传媒大学1010频域掩蔽域随频率变化曲线音调音的掩蔽阈的宽度随频率而变化;掩蔽曲线不对称,高频段
5、一侧的曲线斜率缓些;低频音容易对高频音产生掩蔽。11中国传媒大学11频域掩蔽域随声压级变化曲线12中国传媒大学122、人耳模型——Howearworks视频演示13中国传媒大学132、人耳模型——Cochelaranimation演示14中国传媒大学142、人耳模型•声音频率发生转换–声波冲击耳鼓(Eardrum)和连着的耳骨;–耳鼓和耳骨将机械振动传递给耳蜗(Cochlea)–耳蜗薄膜的椭圆窗沿基底膜长度方向引导行波;–行波在薄膜的特定频率感应位置产生峰值响应;–薄膜的特定频率感应位置为特定频带提供峰值响应;•可以把耳蜗当成一组高度重叠的带通滤波器15中国传媒
6、大学15人耳相当于一个滤波器组•人类听觉系统大致等效于一个在0Hz到20KHz频率范围内由25个重叠的带通滤波器组成的滤波器组。–人耳不能区分同一频带内同时发生的不同声音;–人耳频带被称为临界频带(criticalband);–500Hz以下每个临界频带的带宽大约是100Hz,从500Hz起,临界频带带宽线性增加。–一个临界频带的带宽单位为1巴克(bark)。……0Hz500Hz20000Hzf16中国传媒大学16临界频带单位巴克(Bark)•对于任何掩蔽频率,巴克被定义为一个临界频带的宽度;•巴克单位的意义:用巴克来衡量每个临界频带的宽度大致都是相同的。用巴克
7、单位表示的声音掩蔽效应17中国传媒大学173、临界频带——噪声对纯音的掩蔽18中国传媒大学183、临界频带——噪声对纯音的掩蔽•临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声功率,这个带宽为临界频带宽度。•掩蔽效应在一定频率范围内不随带宽增大而改变,直至超过某个频率值。•通常认为从20Hz到16kHz有25个临界频带,单位为bark。•1bark=一个临界频带的宽度•f<500Hz时1bark约为f/100;•f>500Hz时1bark约为9+4log2(f/1000);•临界频带(Hz
8、)约为24.7×(4.3
此文档下载收益归作者所有