资源描述:
《语种识别论文:语种识别 少数民族语 语音检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、语种识别论文:语种识别少数民族语语音检测【中文摘要】据有关资料统计,当今世界上共有5651种语言。语种之间的信息互通越来越重要,如何让计算机识别出不同的语种已经成为人们的迫切需求。语种识别(LanguageIdentification,LID),是计算机通过分析处理一段语音片断以判别其属于何种语言的过程,本质上也是属于语音识别的一个分支。它已经广泛的应用于信息检索和军事安全等领域。当前语种识别系统主要有三个方面:音位结构模型系统、声学模型系统以及联合系统。其中声学模型系统由于不需要人工标注语料,而且系统扩展性好,所以得到了广泛
2、的应用。本文研究与文本无关的少数民族语种识别方法,采用高斯混合模型—通用背景模型(GaussianMixtureModel-UniversalBackgroundMode,GMM-UBM)建立语种识别系统,探索提高识别率的途径。论文的主要工作有:(1)少数民族电话语音数据库的录制,该数据库包含了9个少数民族语和汉语普通话共10个语种,每个语种有50个发音人,男女比例约为1:1,并进行语音数据的整理。(2)构建一个基于GMM-UBM的少数民族语种识别系统,设计并实现语种识别实验:用双门限的方法进行语音检测;提取MFCC和SDC特
3、征参数;训练UBM模型和GMM模型。(3)用6个民族的不同时长的测试语音和汉语借词进行测试。按四种测试语料分别给出各个语种的识别率,对比两种特征的识别率,从语音学的角度分析各语种之间误识别的原因,还分析了汉语借词对少数民族语种识别率的影响。实验结果表明,论文设计的基于GMM-UBM的语种识别系统具有较好的扩展性;双门限的方法进行语音检测,能有效地去除噪音,提取到有用的语音帧;基于SDC特征参数的少数民族语种识别率明显高于基于MFCC特征参数的识别率;6个语种之间存在有规律的误识别;对汉语借词的识别,实验结果表明汉语借词会使少数
4、民族语种识别率明显下降。【英文摘要】Accordingtostatistics,thereare5651languagesintheworld.Withthecommunicationbetweenthelanguagesbecomesmoreandmoreimportant,howtomakecomputeridentifythedifferentlanguageshavebecomethepeople’surgentneeds.Languageidentificationistheprocessofdeterminingt
5、helanguageofaspokenutterance.Inessence,itisanaspectofspeechrecognition.Languageidentificationhasbeenwidelyusedinmulti-linguisticinformationservicesandsecurityfields.Therearethreetypesoflanguagerecognitionsystem:phonotacticapproachsystemincurrent,acousticapproachsyst
6、emandtheircombinedsystems.Acousticapproachsystemdoesnotrequiremanualtaggingcorpus,andithasagoodportable,soithasbeenwidelyused.Thispaperisfocusonthetest-independentlanguageidentificationmethod,usingGMM-UBMtobuildthelanguageidentificationsystem,andexploresmethodstoimp
7、rovetherecognitionrate.Themainworksareasfollows:(1)Wedesignaminority-orientedlanguageidentificationoftelephonespeechcorpus,whichconsistsofspontaneousutterancesin9minority-orientedlanguagesandMandarin.Theutterancesareproducedby25maleand25female,ineachlanguageoverreal
8、telephonelines.Thenwedosomepreliminarycollatingbeforeweusethem.(2)AlanguageidentificationsystemofminoritylanguagebasedonGMM-UBMmodelisbuil