资源描述:
《隐马尔可夫模型在自然语言理解研究中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第1第5卷15第卷1第期1期电脑与信息技术Vol.15No.12007年2月ComputerandInformationTechnologyFeb.2007文章编号:1005-1228(2007)01-0033-03隐马尔可夫模型在自然语言理解研究中的应用卢微(河北大学人文学院,河北保定071002)摘要:自然语言理解是人工智能最活跃的研究领域之一,同时也是目前前沿的课题之一。该领域的研究人员通过对隐马尔可夫模型这一数学模型的跨领域应用,解决了自然语言理解中的瓶颈问题。文章系统阐述了隐马尔可夫模型的原理以及在语音识别和词性标注方面应用的过程,从而为更多研究者了解和认识。关键词:隐
2、马尔可夫模型(HMM);自然语言理解;语音识别;词性标注中图分类号:O211.62;TP18文献标识码:ATheApplicationofHMMinComprehensionofNaturalLanguageLUWei(CollegeofLiberalArts,HebeiUniversity,Baoding,Hebei071002,China)Abstract:Comprehensionofnaturallanguageisoneofthemostactivefieldsintheresearchofartificialintelligence,itisalsooneofthed
3、ifficultproblemonpresentforwardposition.ResearchersapplysuchmathematicmodelasHiddenMarkovModeltothisfieldandsolvethekeyprobleminthefieldofcomprehensionofnaturallanguage.Thisarticlesystematiclyexpoundstheprincipleofthemathematicmodel-HMMandprocessofitsapplicationintheaspectsofspeechrecognition
4、andpart-of-speechtagging,somoreresearcherswillhaveabetterunderstandingaboutHMM.Keywords:HiddenMarkovModel;comprehensionaboutnaturallanguage;speechrecognition;part-of-speechtagging0引言1隐马尔可夫模型自然语言理解(NaturalLanguageUnderstanding,隐马尔可夫模型HMM是一种用参数表示的用于NLU)是人工智能学的核心课题之一,目的是使机器能描述随机过程统计特性的概率模型,由马尔可夫
5、链演够在一定程度上理解人类的语言。自然语言理解可以变而来。HMM模型是一双重随机过程,一个是具有一分为语音理解(语音识别、理解与合成)和书面语理解定状态数的马尔可夫链,这是基本的随机过程,它描述(分词操作、词性标注、语法分析、短语识别等)。在信息状态的转移;另一个是显示随机函数集,描述状态和观化的社会,随着计算机的发展,计算机和自然语言相结察值之间的统计对应关系。其中模型的状态转换过程合的领域越来越广,像内容分析、信息监控、自动摘要、是不可观察(隐蔽)的,因而称之为“隐”马尔可夫模型。机器学习、机器翻译、人机自然语言对话、基于自然语隐马尔可夫模型描述连续符号序列的条件概率,言的人
6、机合作等,都是自然语言理解的具体应用,而语可以定义为一个五元组:HMM=(S,V,A,B,π),其中:音识别、词性标注又是这些应用中的关键技术环节和(1)S代表一组状态的集合S=91,2,3,⋯,N<,其中基础性课题,如果解决得不好,就会成为自然语言理解的状态数为N,并用qt来表示t时刻的状态。的瓶颈问题。由于隐马尔可夫模型的出现和应用,使得(2)V代表一组可观察符号的集合V=9v1,v2,v3,⋯,自然语言理解研究取得了很大的进展,像语音识别系vm<,m是从每一状态可能输出的不同的观察值的数统、词性自动标注系统都有了实质性的突破。在语音识目。别方面,隐马尔可夫模型合理地模仿了人
7、的言语过程,(3)A代表状态转移概率矩阵A=[aij],这是个N行是目前为止最强有力的识别算法,现在大多数大词汇N列的矩阵,aij表示从状态i转移到状态j的概率,其量连续语音的非特定人语音识别系统都是基于隐马尔中aij=p(qt+1=j/qt=i),1!i,j!N。可夫模型的。在词性标注方面,采用隐马尔可夫模型的(4)B代表可观察符号的概率分布B=9bj(k)<,9bj(k)<标注方法有很强的健壮性,是当前主流的标注方法。表示在状态j输出观察符号的vk概率,有bj(k)=P(vk