基于深层神经网络的音频特征提取及场景识别研究

基于深层神经网络的音频特征提取及场景识别研究

ID:34156583

大小:2.67 MB

页数:65页

时间:2019-03-04

基于深层神经网络的音频特征提取及场景识别研究_第1页
基于深层神经网络的音频特征提取及场景识别研究_第2页
基于深层神经网络的音频特征提取及场景识别研究_第3页
基于深层神经网络的音频特征提取及场景识别研究_第4页
基于深层神经网络的音频特征提取及场景识别研究_第5页
基于深层神经网络的音频特征提取及场景识别研究_第6页
基于深层神经网络的音频特征提取及场景识别研究_第7页
基于深层神经网络的音频特征提取及场景识别研究_第8页
基于深层神经网络的音频特征提取及场景识别研究_第9页
基于深层神经网络的音频特征提取及场景识别研究_第10页
资源描述:

《基于深层神经网络的音频特征提取及场景识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深层神经网络的音频特征提取及场景识别研究RESEARCHONAUDIOFEATUREEXTRACTIONANDCONTEXTRECOGNITIONBASEDONDEEPNEURALNETWORKS王乃峰哈尔滨工业大学2015年6月国内图书分类号:TP391.4学校代码:10213国际图书分类号:681.3密级:公开工程硕士学位论文基于深层神经网络的音频特征提取及场景识别研究硕士研究生:王乃峰导师:郑铁然副教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2015年6月授予学位单位:

2、哈尔滨工业大学ClassifiedIndex:TP391.4U.D.C:681.3DissertationfortheMasterDegreeinEngineeringRESEARCHONAUDIOFEATUREEXTRACTIONANDCONTEXTRECOGNITIONBASEDONDEEPNEURALNETWORKSCandidate:WangNaifengSupervisor:AssociateProf.ZhengTieranAcademicDegreeAppliedfor:MaterofEngineeringSpe

3、ciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:July,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要音频场景识别(AudioContextRecognition)是人工智能领域重要的研究方向之一,该技术依据周边声音感知环境动态,对机器作出进一步智能选择有着非常重要的意义。近年来有较多的学

4、者涉足这一研究方向,他们大多采用先特征提取后分类器分类的研究框架,其中,对如何提取能够反映音频场景声学特性的识别特征方面给与了较多的关注。所采用的声学特征可以粗略的分为两大类:短时特征和长时特征。短时特征如单音轨梅尔频率倒谱系数、多音轨梅尔频率倒谱系数、梅尔频率倒谱系数和稀疏特征的联合特征等;长时特征多为音频段的长时统计值或基于语义相关性的特征等。从研究结果上看,目前的声学特征都有其不足之处,短时特征往往不足以完整地刻画一个音频场景的特性,长时特征往往缺乏对音频段内部细节的描述,而长时统计值中缺失的内部结构信息对区分音频场景

5、也有重用的价值。本文对既能反映音频段长时特性又能反映局部结构性的声学特征的提取方法进行研究,并验证了它们在音频场景识别任务中的有效性。深层神经网络能够通过自学习来发现适合分类任务的特征向量,这已经在图像尤其是自然图像的结构性特征分析方面得到了验证,这些特征提取方法能够很好地反映出图像的结构信息,相对于主观分析方法有着很大的优势。所以,本课题借助深层神经网络的特征分析能力在语谱图上进行场景长时结构性特征的分析与提取。主要研究内容如下:首先研究了基于卷积神经网络的音频场景特征分析提取方法,卷积神经网络通过卷积和下采样操作对输入数

6、据进行非线性映射,最终通过重构误差的反向传播进行参数的调节,从而提取出能够刻画音频场景特性的声学特征。卷积神经网络在训练是以输入数据的类别重构误差最小化为优化目标的,所以训练过程需要大量的有标签数据。现实情况下,往往难以得到大量带标签的训练数据,因为对数据进行标注费时费力,所以本文也提出了基于解卷积神经网络的特征提取方法。解卷积神经网络模型在特征分析处理过程中不仅保留了卷积神经网络的卷积操作和下采样操作,而且还在原来的基础上有了些改进,其参数更新过程是基于对输入数据重构误差的反向传播进行的,这样就不需要带标签的数据。采用这种

7、特征提取方法,音频场景数据的采集相对来说就较为容易,训练数据不足的问题就得到了很好的解决。通过实验验证,我们得到的结果是,采用基于卷积神经网络得到的音频特-I-哈尔滨工业大学工程硕士学位论文征,进行场景识别的性能有很大提升;基于解卷积神经网络分析得到的特征虽然对识别性能没有较大的提升,但是针对训练数据不足的问题它还是有效的。关键词:音频特征提取;卷积神经网络;解卷积神经网络;音频场景识别-II-哈尔滨工业大学工程硕士学位论文AbstractAsoneoftheartificialintelligenceresearchori

8、entation,theaudiocontextrecognitioncanapperceivetheenvironmentdynamicinformationaccordingtonearbysounds,thatisveryimportantforafurtherintelligent

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。