基于深度神经网络的音频事件检测

基于深度神经网络的音频事件检测

ID:35067231

大小:4.75 MB

页数:82页

时间:2019-03-17

基于深度神经网络的音频事件检测_第1页
基于深度神经网络的音频事件检测_第2页
基于深度神经网络的音频事件检测_第3页
基于深度神经网络的音频事件检测_第4页
基于深度神经网络的音频事件检测_第5页
资源描述:

《基于深度神经网络的音频事件检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度神经网络的音频事件检测系统设计及实现作者姓名金海学科专业通信与信息系统指导教师李艳雄所在学院电子与信息学院论文提交日期2016年6月AudioEventsDetectionBasedonDeepNeuralNetworkADissertationSubmittedfortheDegreeofMasterCandidate:JinHaiSupervisor:LiYan-xiongSouthChinaUniversityofTechnologyGuangzhou,China分类号:T

2、N912.34学校代号:10561学号:201320108685华南理工大学硕士学位论文基于深度神经网络的音频事件检测作者姓名:金海指导教师姓名:李艳雄申请学位级别:硕士学科专业名称:通信与信息系统研究方向:语音信号处理论文提交日期:2016年04月20日论文答辩日期:2016年06月08日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:秦华标教授委员:贺前华教授黄茜教授李艳雄讲师华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所

3、取得的研究成果,本论文不包含任。除了文中特别加W标注引用的内容外何其他个人或集体己经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本人完全意识到本声明的法律后果由本人承担。。:^/作者签名:日期>4年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,艮P:研究生在校攻读学位期间论文王作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位:论文被查

4、阅(除在保密期内的保密论文外)学校可公布学位论文的全;、部或部分内容,可允许采用影印、缩印或其它复制手段保存汇编学位一论文。本人电子文档的内容和纸质论文的内容相致。本学位论文属于:.□保密,在年解密后适用本授权书。^__故不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。""(请在W上相应方框内打V)。作者签名:

5、日期:M小I指导教师签名:日期:如f作者联系电话:电子邮箱:联系地址(含邮编):摘要随着互联网技术的快速发展及手持录音设备的普及,人们可获取的音频数据呈爆炸式增长。为了有效管理、利用海量音频数据,音频检索技术成为研究热点。音频事件检测是音频检索的重要组成部分,其主要任务是将连续音频流中感兴趣的音频事件检测出来。本文采用深度神经网络(DeepNeuralNetwork,DNN)作为深层特征提取器和音频事件分类器,提出一种基于深度神经网络的音频事件检测框架,并比较不同音频特征及分类器在复杂

6、音频事件检测中的性能差异。本文主要工作及贡献如下:(1)针对传统音频特征不能有效刻画复杂音频事件之间差异的问题,提出一种基于多流多层深度神经网络的复杂音频事件深层变换特征提取方法。首先以传统音频特征分别作为第一层深度神经网络的输入并将该层深度神经网络瓶颈层的输出作为第二层深度神经网络的输入,然后将第二层深度神经网络瓶颈层的输出作为深层变换特征。多个传统音频特征经过多流多层深度神经网络学习变换之后,最终得到的音频特征融合了传统音频特征的优势并进一步挖掘了新的输入特征信息。采用取自BBC音频事件数据库和

7、影视剧音频事件数据库的实验数据进行测试,实验结果表明:与目前被广泛使用的梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)和Gabor特征相比,本文提取的特征在区分复杂音频事件时获得更好的分类效果。(2)将深度神经网络作为音频事件分类器并结合(1)中提取的深层变换特征,提出一种基于深度神经网络的音频事件检测方法,并深入探讨深层变换特征在音频事件检测时的抗噪性。该方法将深度神经网络既作为特征提取器又作为分类器,旨在利用深度神经网络的数据学习能力获得更优的音频

8、事件检测性能。采用取自BBC音频事件数据库和影视剧音频事件数据库的实验数据进行测试,实验结果表明:与目前基于高斯混合模型、基于隐马尔科夫模型和基于支持向量机的音频事件检测方法相比,本文方法获得了更好的检测结果。采用带有Babble噪声、Destroyerops噪声、F16噪声和Factory1噪声的影视剧音频事件数据集依次进行测试,深层变换特征比MFCC特征的平均F1值分别提高9.08%、12.01%、6.79%和13.64%;比Gabor特征的平均F1值分别提高5.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。