欢迎来到天天文库
浏览记录
ID:23819379
大小:2.59 MB
页数:77页
时间:2018-11-11
《特定领域中文语音识别系统中语言模型和语义分析的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文特定领域中文语音识别系统中语言模型和语义分析的研究姓名:孙静申请学位级别:硕士专业:电路与系统指导教师:朱杰2003.2.1上海交通大学硕士学位论文特定领域中文语音识别系统中语言模型和语义分析的研究摘要本文以语音识别系统中语言模型和语义分析这两项技术为主线以统计理论为依据对特定领域的语音识别系统中的语言模型和语义分析进行了研究首先以开发一个自动电话语音转接系统为背景介绍了特定领域中基于分层语法模型的语言模型及其应用该模型应用于语音识别中和传统的N-gram模型相比提高了识别率它也可用于特定领域的语义分析中利用
2、高层语义信息把拼音汉字转换和语义标注两个过程有机的结合起来本文还讨论了基于分类的词语言模型在中文语音识别系统中基于统计的字的N-gram模型的性能不佳由于数据稀疏的问题N-gram模型中的N只能取到3而无法考虑更长距离的依赖而词语言模型可以克服该问题同样的为了解决数据稀疏问题和进一步提高模型的性能本文研究了分类的词语言模型主要技术包括中文自动分词和语义聚类在实际的语音系统中仅有一个语音识别器是不够的还需要对识别的内容进行语义分析为了实现一个具有人机交互功能的实用系统自然语言理解技术是一个核心的研究内容本文讨论了如何从未标注的文本中提
3、取语义结构的算法利用中文分词和语义聚类技术建立了初II上海交通大学硕士学位论文始的语义分类词典然后采用迭代的算法提取语义结构提取的结构既可用于单句的浅层语义分析也有助于建立分层语法模型关键词语言模型语音识别语义分析语义聚类自动分词III上海交通大学硕士学位论文STUDYONLANGUAGEMODELANDSEMANTICPARSINGOFCHINESESPEECHRECOGNITIONSYSTEMSINSPECIFICDOMAINSABSTRACTInthispaper,wemainlydiscussthelanguagemodel
4、andsemanticparsingtechniquesinspecific-domainspeechrecognitionsystem.Themainmethodisstatistical.Wefirstdiscussagrammar-basedhierarchicallanguagemodelindevelopingaSpeechRecognitionSystemforAutomaticTelephoneOperatorScenario.Thegrammarmodelraisedrecognitionaccuracy,compa
5、ringwithtraditionalN-grammodel.ThemodelcanalsobeappliedinasemanticparsertocombinetheprocessesofPinyin-Charactertransitionandsemanticparsingwhichexploitshighlevelsemanticinformationinlanguagemodel.Thenwediscusstheclass-basedphraselanguagemodel.InChinesespeechrecognition
6、systems,theN-gramcharactermodeldoesnotworkwell.Becauseofthesparsedata,Ncanonlybe2or3.Sothedependenceoflongerdistanceisnotconsidered.Butthephraselanguagemodelcanovercomesuchproblem.Inordertofurtherimprovetheperformanceandovercometheproblemofsparsedata,class-basedphrasel
7、anguagemodelisadopted.Themodelcontainsthetechniquesofautomaticsegmentingandsemanticclustering.Inarealworldspeechsystem,asolespeechrecognitionmoduleisnotenough.SemanticparseroftherecognizedsentencesisalsorequiredinsuchIV上海交通大学硕士学位论文system.Forhuman-machineinterface,natur
8、allanguageunderstandingisthecoremodule.Thispaperdiscusseshowtoextractsemanticstructuresfromunlabelledcorpora.Usingthe
此文档下载收益归作者所有