副歌提取和人声检测设计文档

副歌提取和人声检测设计文档

ID:6724826

大小:653.12 KB

页数:5页

时间:2018-01-23

副歌提取和人声检测设计文档_第1页
副歌提取和人声检测设计文档_第2页
副歌提取和人声检测设计文档_第3页
副歌提取和人声检测设计文档_第4页
副歌提取和人声检测设计文档_第5页
资源描述:

《副歌提取和人声检测设计文档》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、音乐主题提取系统设计文档一.算法概述1.算法流程说明本算法需要解决的技术问题是,给定一首音频文件,通过对现有音乐信号提取技术的整合及优化,让计算机能够自动识别出副歌的位置。基本的流程图如右图所示。(1)读入音频文件本步骤由用户完成,注意需要读入的是wav文件格式,可以批量读入也可以单个读入。(2)节拍追踪首先进行能量和相位的音符开端检测,接下来使用动态规划算法计算最优节拍序列间隔。测量的方法是将分帧的音频信号通过短时傅立叶变换映射到频域进行频谱分析得到音符开端包络线,为了保证短时变换中的信号相对稳定,因此首先对音频信号进行固定长度的分帧。

2、选取的帧长为32ms,每次以4ms为单位进行推进,再对于每一帧进行短时傅立叶变换(Short-timeFourierTransfer)。那么在频域会有n个bin(n为该帧短时信号的采样点个数),对于其中的某一帧(该帧的帧数由m表示)的第k个bin可以以复数的形式被表示为:Skm=Rk(m)ejφk(m)其中Rk(m)为第m帧中的第k个bin的幅度,Φk(m)为第m帧中的第k个bin的相位。之后可以通过当前一帧对于接下来的一帧进行估计。对于该帧内的每一个bin,其幅度的估计值~Rkm即为之前一帧与之对应的bin的幅度,即:~Rkm=Rk(m

3、-1)。而相位的估计值~φkm则为前一帧与之对应的bin的相位以及其相位的差分之和。表示为:~φkm=princarg[2φkm-1-φk(m-2)]其中函数princarg将相位映射到[−π,π]的范围中。这样就得到了第m帧幅度和相位的估计值。此时可以在复平面上对这两个点求欧几里德距离,用γk(m)表示第m帧的第k个bin的实际值与估计值之间的距离,即:γkm=[Rkm-~Rkm}2+[φkm-~φk(m)]2将这n个距离相加,就可以得到一个以帧为单位的音符开端检测函数:Dm=1kγkm(3)提取与节拍同步的chroma特征对音符开端检

4、测的结果应用动态规划的方式进行节拍追踪(BeatTracking),使得检测出的节拍同时满足以下两个条件:①节拍的开端尽可能与音符开端重合;②两个节拍之间的时间长度恒定。节拍实际上即为固定间隔的时间点序列,并且要让尽可能多的音符开端落在节拍的时间上。动态规划的过程也正是在这两个限制条件下寻求最优的节拍位置以及节拍间隔。用算式表示的目标函数即为:C{ti}=i=1NDm+ai=2NF(ti,τp)其中i=2NF(ti,τp)是一个衡量速率的标准。目标是寻找最优的节拍序列{ti}来使得目标函数(C{ti})最大。将每一帧内的信号通过傅立叶变换

5、由时域映射到频域,这里分割出的帧就是经过节拍同步后划分的帧长度;将对应于不同八度同一个音名频率内的部分映射到对应的半音音名中,产生一个12维的向量,每一维对应于一个八度中的一个半音;以节拍追踪的结果为依据,在一个节拍之内对属于其中的帧的chroma特征向量进行平均,即可得到与节拍同步的一个chroma特征向量,每个节拍对应一个chroma特征向量。(1)计算chroma特征的自距离矩阵定义自距离矩阵为D[m,m],其中m为整个歌曲的节拍数,则其中矩阵的元素D(i,j)表示第i拍所对应的chroma特征向量与第j拍所对应的chroma特征向

6、量的欧式距离。具体公式如下:Di,j=0.5(1-Vi

7、Vj

8、)其中Vi表示第i个节拍对应的特征向量。使用自距离矩阵,可以对歌曲节拍与节拍之间的关系进行衡量,并且可以非常直观的反映出歌曲的结构信息。从自距离矩阵的主对角线开始向左下方平移,计算每一条子对角线所有元素的平均值,并且将得出的结果表示成为一个以k(该子对角线与主对角线相比向左下方平移的长度)为自变量,元素平均值为函数值的函数F(k).具体表示为:Fk=1M-kc=1M-kD(c+k,c)其中M是整个歌曲的节拍数。可以认为整个子对角线的元素平均值若较小,则说明有可能有

9、重复的段落出现在了这条子对角线所表示的这段音乐中,因此找出函数F(k)的极小值,取出对应于这些极小值的子对角线,则副歌以及其他多次重复的部分(如主歌)就应该会包含在其中。(2)自距离矩阵的二值化设定一个阈值(在实现中此阈值可使80%的元素值取值为1,20%的元素取值为0,该取值通过实验证明可产生较好的结果),将所有这些子对角线中的元素值与阈值进行比较,若大于阈值则该点为1,否则为0。(3)打分判断最高分段落为副歌将所有的可能的副歌段落基于以下几个方面对于可能的副歌段落进行打分:①段落在歌曲中的位置;一般来讲,某一类副歌的出现位置都是在一个

10、大约的位置,因此可以对该位置进行估计。基于观察的结果,大部分的流行音乐歌曲的副歌都会出现在接近歌曲1/4以及3/4的位置附近,因此可以通过可能副歌段落与歌曲1/4以及3/4的距离作为一个衡量的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。