复杂场景下的音频序列切分方法的研究.pdf

复杂场景下的音频序列切分方法的研究.pdf

ID:35008333

大小:2.80 MB

页数:62页

时间:2019-03-16

复杂场景下的音频序列切分方法的研究.pdf_第1页
复杂场景下的音频序列切分方法的研究.pdf_第2页
复杂场景下的音频序列切分方法的研究.pdf_第3页
复杂场景下的音频序列切分方法的研究.pdf_第4页
复杂场景下的音频序列切分方法的研究.pdf_第5页
资源描述:

《复杂场景下的音频序列切分方法的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文复杂场景下的音频序列切分方法的研究RESEARCHONAUDIOSEQUENCESEGMENTATIONMETHODINCOMPLEXSCENES朱田恬哈尔滨工业大学2018年6月国内图书分类号:TP391.4学校代码:10213国际图书分类号:004.8密级:公开工学硕士学位论文复杂场景下的音频序列切分方法的研究硕士研究生:朱田恬导师:陈清财教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39

2、1.4UDC:004.8DissertationfortheMasterDegreeinEngineeringRESEARCHONAUDIOSEQUENCESEGMENTATIONMETHODINCOMPLEXSCENESCandidate:TiantianZhuSupervisor:Prof.QingcaiChenAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:Shen

3、zhenGraduateSchoolDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要复杂场景下的音频序列切分是对音频做深度处理的基础和前提,对音频后续处理工作具有重要的影响。在许多实际应用的场景中,如语音识别系统、说话人识别系统和语音自动标注系统等,首要任务是对输入语音信号进行精确检测,找出语音段的起始和终止点。目前很多音频分割的研究工作面向纯净的语音信号展开,但是对

4、于含有背景噪音的音频无法做出准确的分割。针对研究工作的需要,构建了复杂场景下的音频序列数据集。通过对采集到的复杂场景下的中小学教学音频数据进行数据预处理和规范化标注等工作,完成构建了共计时长62.32小时的语音语料,为复杂场景的音频序列切分任务的研究奠定了数据基础。针对复杂场景下的音频序列切分问题,完成了两种音频切分模型的构建,分别是基于深度学习的单一模型以及基于深度学习和贝叶斯信息选择的混合模型。单一模型以深度残差网络(ResNet)为模型结构,由于声学特征以语谱图的形式呈现,考虑到深度残差网络在图像处理中的

5、优异性能,我们将深度残差网络引入语音的切分任务中,并在已有的复杂场景数据集和纯净的公开数据集上分别开展实验,通过三种深度学习模型和两种机器学习模型的对比实验结果验证了深度残差网络在该任务上的优越性。混合模型结合了双向长短时记忆网络(BiLSTM)、深度残差网络(ResNet)和贝叶斯信息选择(BIC)三种模型方法各自的优势,弥补了单一模型的不足,对语音信号做了更精确的切分,并且对比分析了单一模型和混合模型各自的优劣势和适用场景。根据上述两种模型的预测结果,实现了对于给定音频输入文件给出切分后的多个音频片段的复杂

6、场景下的音频序列自动切分系统。关键词:音频切分;复杂场景;卷积神经网络;长短时记忆网络;深度残差网络;贝叶斯信息选择-I-哈尔滨工业大学工学硕士学位论文AbstractThesegmentationofaudiosequencesincomplexscenesisthebasisandprerequisitefordeepprocessingofaudio.Ithasanimportantinfluenceonaudiofollow-upprocessing.Inmanypracticalapplication

7、s,suchasspeechrecognitionsystem,speakerrecognitionsystem,andautomaticspeechtaggingsystem,thefirsttaskistoaccuratelydetecttheinputspeechsignalandfindthestartandendpointsofthespeechsegment.Atpresent,manyresearchesonaudiosegmentationarefocusedonthedevelopmentof

8、purespeechsignals,butitisimpossibletomakeaccuratesegmentationforaudiocontainingbackgroundnoise.Fortheneedsoftheresearchwork,anaudiosequencedatasetinthecomplexsceneswasconstructed.Bypreprocessing

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。