欢迎来到天天文库
浏览记录
ID:35181422
大小:2.14 MB
页数:57页
时间:2019-03-21
《无线电对讲语音的说话人分割聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、无线电对讲语音的说话人分割聚类研究肖泽苹2016年1月无线电对讲语音的说话人分割聚类研究作者姓名肖泽苹学院名称信息与电子学院指导教师谢湘副教授答辩委员会主席费泽松教授申请学位工学硕士学科专业信息与通信工程学位授予单位北京理工大学论文答辩日期2016年1月6日WirelessIntercomAudioofSpeakerSegmentationandClusteringResearchCandidateName:ZepingXiaoSchoolorDepartment:InformationandElectronicsFacultyMento
2、r:AssosiateProf.XiangXieChair,ThesisCommeetee:Prof.ZesongFeiDegreeApplied:MasterofEngineeringMajor:InformationEngineeringDegreeby:BeijingInstituteofTechnologyTheDateofDenfence:January.6,2016研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经
3、发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要伴随着信息爆炸和大数据时代的到来,音频获取途径和数量迅速增加,音频管理变得越来越复杂,说话人分割聚类作为音频管理的一种方式近几年在国际上逐渐成为研究热点。说话人分割聚类是说话人识别、话者跟踪、话者自适应的前期处理和必要步骤。本文针对多说话人、信道变化、背景噪声大的无线电对讲语音,主要进行说话人分割聚类研究。在分
4、析现有无监督说话人分割算法的基础上,使用BIC、GLR和KL2准则对音频进行说话人分割,通过移动不同尺度的时间窗来快速确定存在的说话人变化点,最佳性能达到F=65.47%。说话人聚类是通过CLR距离的自底向上的层次聚类来实现的,聚类的终止条件是系统中指定的说话人个数。针对音频中包含较大的背景噪声,使用经典的谱减法和维纳滤波器对音频进行语音增强,对增强后的语音进行说话人分割聚类实验。在以上说话人分割算法性能遇到瓶颈时,通过观察发现地面控制中心和飞行员说话结束后会产生按键音。由于按键音是说话人变化的标识,由此提出信息融合的方法进行说话人分割聚
5、类。在研究现有声学事件检测算法的基础上,使用时域分析和模型匹配的方法进行声学事件检出。通过实验得到高召回率和高准确率的事件位置后,对说话人分割结果进行修正。实验表明增加事件检测后说话人分割算法性能提升到77.18%,比之前单独使用最好的BIC方法的综合性能相对提升了17.88%,召回率和准确率分别相对提升了20.01%和15.50%。关键词:信息融合;说话人分割聚类;声学事件检测I北京理工大学硕士学位论文AbstractWiththearrivaloftheinformationexplosionandthebigdataera,thew
6、ayandquantityoftheaudioacquisitionisincreasingrapidly,themanagementofaudioisbecomingmoreandmorecomplex.Thespeakersegmentationandclusteringasawayofaudiomanagementgraduallybecomeahotresearchtopicinrecentyearsintheworld.Speakersegmentationandclusteringarethepre-processingand
7、necessarystepsforspeakeridentification,speakertrackingandspeakeradaptations.Inthispaperforwalkie-talkieradiosystem’sspeechwithmulti-speakers,channelchangeandlargenoises,wefocusonspeakersegmentationandclustering.Firstweanalysisoftheexistingunsupervisionalgorithmsofspeakers
8、egmentationandusetheBIC,GLRandKL2criterionforspeakersegmentation,throughmovingtimewindowofdiffer
此文档下载收益归作者所有