欢迎来到天天文库
浏览记录
ID:34621988
大小:4.04 MB
页数:60页
时间:2019-03-08
《基于听觉图像音乐流派自动分类系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意
2、学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日摘要随着互联网的普及,网络上的音乐信息成千上万,如何在最短时间内筛选出满足用户需求的音乐,成为现代生活中亟待解决的问题。于是,基于内容的音乐信息检索技术成为信息检索领域至关重要的技术,音乐流派自动分类成为近年来研究的热点之一。本文将听觉图像引入音乐流派自动分类的研究中,采用听觉图像模型,设计滤波器等模拟人耳耳蜗的结构功能,将一维音频信号转换为二维听觉图像。然后,对不同音乐流派的听觉图像进行尺度不变特征转
3、换(SIFT)及空间金字塔匹配(SPM),提取不同流派听觉图像的纹理特征。其中,尺度不变特征变换可以提取不同空间位置上听觉图像灰度值相对位置、大小关系和梯度方向信息,能够更加全面的描述图像局部特征;而空间金字塔匹配方法在3个不同层次上将稀疏化的听觉图像局部特征以不同刻度整合起来,表征听觉图像在不同层次上的全局特征。基于听觉图像的特征向量是高维度的、稀疏化的向量,本文分类方法选取在音乐流派自动分类中效果较明显的K-最近邻分类器和支持向量机。不同k值的K-最近邻结点算法和不同核函数的支持向量机构成不同的分类器的分类结果不同,比较可知,线性支持向量机在本
4、文系统中分类效果优于K-最近邻分类器和其他核函数的支持向量机。比同样基于人耳耳蜗结构提取的MFCC特征分类正确率提高15%;比增加了模糊映射的音色特征集分类正确率高6%左右;与同样从图像角度出发,分析MFCC频谱图和短时傅里叶变换频谱图相比,分类正确率也有所提高。关键词:音乐流派自动分类听觉图像模型尺度不变特征转换空间金字塔匹配ABSTRACTWiththepopularityofinternet,howtoselecttheinformationsatisfiesneedsofusersfromtensofthousandsofmusiconth
5、einternet,becametheissuerequiringsolution.Inthisway,thecontent-basedmusicinformationretrievaltechnologybecomescrucialinthefieldofinformationretrievaltechnology.Musicgenreclassificationbecomesoneofthehotspotsfordomesticandinternationalexpertsandscholarstoresearchinrecentyears.I
6、nthispaper,weintroducetheauditoryimagemodelintothefieldofmusicgenreclassification.Theauditoryimagemodelconvertedtheone-dimensionalaudiosignalintotwo-dimensionalauditoryimagesbysimulatingthehumanearcochlearstructuresusingaseriesofmathematicalexpressions.Andthen,extracttexturefe
7、aturesfromdifferentgenreimagesbythemethodsofScaleInvariantFeatureTransform(SIFT)andspatialpyramidmatching(SPM).SIFTcanextractthespatialposition,sizeandgradientorientationinformationfromeachpiex.SPMcanintegratethelocalfeatureintotheglobalfeaturesindifferentlevels.Thefeaturevect
8、orbasedonauditoryimageishighdimensionalandsparse.Thestatistic
此文档下载收益归作者所有