基于锚空间的音频场景识别方法研究硕士学位论文

基于锚空间的音频场景识别方法研究硕士学位论文

ID:265442

大小:958.66 KB

页数:67页

时间:2017-07-16

基于锚空间的音频场景识别方法研究硕士学位论文_第1页
基于锚空间的音频场景识别方法研究硕士学位论文_第2页
基于锚空间的音频场景识别方法研究硕士学位论文_第3页
基于锚空间的音频场景识别方法研究硕士学位论文_第4页
基于锚空间的音频场景识别方法研究硕士学位论文_第5页
资源描述:

《基于锚空间的音频场景识别方法研究硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于锚空间的音频场景识别方法研究RESEARCHONAUDIOSCENERECOGNITIONBASEDONANCHORSPACE杨静哈尔滨工业大学2011年6月国内图书分类号:TP391.42学校代码:10213国际图书分类号:681.3密级:公开工学硕士学位论文基于锚空间的音频场景识别方法研究硕士研究生:杨静导师:韩纪庆教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2011年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.42U.D.C:681.3Disserta

2、tionfortheMasterDegreeinEngineeringRESEARCHONAUDIOSCENERECOGNITIONBASEDONANCHORSPACECandidate:YangJingSupervisor:Prof.HanJiqingAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScience&TechnologyAffiliation:SchoolofComputerScience&TechnologyDateofDefence:June,201

3、1Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着现代信息技术,特别是数字信号处理技术、网络多媒体技术的迅猛发展,越来越多的声音信号被数字化处理,并以各种音频格式存在。基于此,人们迫切地需要能够在音频数据流中对音频内容进行识别和理解的有效技术手段,从而高效地利用这些音频资源,并为各种智能系统提供基于声音的决策依据信息。音频场景是指语义上相关,时间上相邻的若干声学事件所组成的一个音频片段,此片段总是蕴含着高层抽象概念和特定的语义表达。音频场景识

4、别是对音频语义内容高层次的识别和理解,该技术可广泛应用于信息内容安全、智能监控、无人驾驶车辆、智能会议室等领域。传统的音频场景识别方法,如高斯混合模型方法等,一般在短时上进行建模和识别,在长时上根据短时得分进行综合判决。这种方法忽略了声学内容在长时上的分布特性,且不适用于目标声学内容与非目标内容混杂的情况。本文提出了三种在长时上进行建模的锚空间音频场景识别方法,并设计了一个识别任务对这三种方法的性能进行了验证,在一段娱乐节目中根据音频寻找“令人激动”的场景片段,该场景一般对应较激烈的欢笑声和鼓掌声等。锚可以看作一个类别的原型表示,是根据信号产生

5、的矢量到类别的一种映射关系。本文提出了三种面向音频场景的锚空间构造方法,并设计了相应的场景识别方法:1)基于状态变化统计量的锚空间音频场景识别方法。此方法将音频特征在时序上的变化量转化为若干变化状态,基于这些变化状态的统计信息张成锚空间,每个目标音频文件在此锚空间中映射成一个锚矢量,将此锚矢量当作目标场景的一个模板,从而构成目标场景库;2)基于高斯混合模型的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标高斯混合模型,集外音频文件训练得到集外高斯混合模型,基于各高斯分量的均值矢量张成锚空间,通过计算余弦距离将音频帧映射到锚空间中的一个

6、点,求全部目标场景文件各帧在锚空间中的样本均值作为锚模板,目标场景由此锚模板表示;3)基于稀疏分解的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标字典,集外音频文件训练得到集外字典,基于其字典原子张成锚空间,稀疏分解得到的稀疏系数为此锚空间的坐标。-I-哈尔滨工业大学工学硕士学位论文实验数据为从网络上下载的娱乐节目,实验结果表明,三种基于锚空间的方法对节目中令人激动的场景都有很好的识别效果。特别是基于状态变化统计量的锚空间音频场景识别方法,其召回率达到85.67%时,其对应的错误接收率仅为9.57%。最后通过系统总结,提出了尚需完善

7、和改进的方面。关键词:音频场景识别;锚空间;高斯混合模型;稀疏分解-II-哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofmoderninformationtechnology,especiallynetworkmultimediatechnology,digitalsignalprocessingtechnology,moreandmorevoicesignalisdigitized,andstoredinavarietyofaudioformats.Basedonthis,peopleurge

8、ntlyneedaneffectivemethodtorecognizethecontentofaudiofromtheaudiodatastream

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。