基于dtw的哼唱识别系统的研制

基于dtw的哼唱识别系统的研制

ID:21877108

大小:52.00 KB

页数:5页

时间:2018-10-25

基于dtw的哼唱识别系统的研制_第1页
基于dtw的哼唱识别系统的研制_第2页
基于dtw的哼唱识别系统的研制_第3页
基于dtw的哼唱识别系统的研制_第4页
基于dtw的哼唱识别系统的研制_第5页
资源描述:

《基于dtw的哼唱识别系统的研制》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于DTW的哼唱识别系统的研制音乐旋律特征提取不是最终目的,在对哼唱片段进行音乐旋律特征提取之后,下一步的工作就是将这些特征与音乐数据库中的所有数据进行比较,寻找出最为匹配的若干首歌曲.提取音乐旋律特征后,二进制的音乐数据已经转换为字符序列,从而搜索过程也将在字符串空间进行。字符串的搜索、匹配、相似度比较和计算在诸多领域有着广泛应用,已经有大量的技术积累,因而,通过对现有算法的了解,将有力的支持音乐检索匹配算法的研究工作。1.常用的匹配算法BF(BruteForce)算法又称蛮力匹配算法[1]。KMP(Knuth-Morris-Pratt)算法[2]动态时间

2、归整(DTicTimeicTimeWarping(DTW)的加速在哼唱识别的前处理中,资料库的比对数量减少了5%~20%。剩下的再做完全的比对工作。通过对音乐的音高值提取了解到,音高序列的大小可以通过窗函数的大小,窗移动的大小来改变。本文哼唱歌曲长度为8秒,采样率为8000Hz,采样点为8bit。窗函数大小为420,1/38秒取一个音高点,每首歌有304个音高点。本文将通过不同的音高截取比率,将比对的歌曲音高点数按截取比率减小,再做比对。音高点数的减少,比对时间也就相应的减少。比如说:音高比率如果是1/2.则本文的歌曲的音高点数变为,304/2=152点。做

3、法则是:对音高向量做处理,每两个点只取一点,另一点就忽略,对哼唱歌曲音高向量做预处理。同时做预处理是把标准资料库里的歌曲音高向量做相应的减少音高点数的处理,保存在资料库中。然后和标准库的歌曲音高向量做DTW的比对运算。下图是1/4的音高截取比率的音高向量示意图。图6截取比率为1/4的音高示意图(小背篓为例)音高点数的减少,相应的比对时间也会减小。这时我们就会问多大的截取比率才是最好的,是不是为了减少比对时间越小越好。这些都需要在实验中总结,通过比较截取前和截取后的同一首歌、同一人哼唱的识别率。由于本文歌曲音高向量提取时特征点比较多,在截取率为1/2时,在识别

4、率和减少比对时间上都取的比较好的效果。表2不同截取率下的耗时表3不同截取率下的误判率截取率01/21/31/450首总时间(s)180906540截取率1/21/31/4Top350首误判率(%)2%3.5%6%基于上述哼唱检索方法,开发了哼哼哼唱检索系统,系统的计算主要包含两大部分,一是特征提取[4],二是搜索匹配。3.系统性能评价3.1系统实验精度测试歌曲于精心挑选的国内传唱最广的、最具地方味的500首民族歌曲。取用了100首歌,每首歌50个不同的人哼唱,共5000个歌曲片段做测试表4哼唱检索的总结果检索结果位置检索精度前3位84%前5位90%前10位9

5、4%3.2系统实验性能测试如表5表5系统搜索时间时间统计方式花费时间(单位秒)系统搜索总时间1.58基频提取均耗时0.38系统识别均耗时1.204.系统特点总结1)本系统在研制过程中充分考虑到音乐数据自身的音乐特性(即不把它仅仅作为一种二进制的普通数据),通过对歌曲旋律的检索来实现音乐检索。2)无需事先训练。在涉及语音技术的研究或系统实现中,经常会用到训练策略来加强系统的适应能力。但本系统在使用中无需事先进行训练,只要用户能够哼唱准确,往往能取得良好搜索精度。3)有较好的搜索精度和搜索速度。但系统目前仍然是实验系统,在搜索技术和效率改进上还有很多可以完善的地

6、方。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。