资源描述:
《基于hmm藏文词性标注的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于HMM藏文词性标注的研究羊毛卓么青海师范大学民族师范学院摘要:在现代藏文信息中,对词性的注释是一个重要的研究方向,其不仅关注到以信息安全、大数据搜索引擎、智能化翻译为主的多领域发展,同时也是更好推动藏文被人们所熟知的一种模式。鉴于此,笔者基于数据统计的方式,以藏语语料为切入点,运用现代化Vitcrbi算法来展开对藏文信息中词性的注释的系统研究。结合研究结果发现,基于数据统计模式展开的词性标注模式,可以切实有效提升其正确率,为实践推广产牛了良好的参考价值。关键词:藏语;词性标注;HMM模型;自然语言处理;引言基于现代
2、语言学得知,词性标注作为一种有效工具,它是正确理解语言及展开语言系统化分析的基本要义,其研究成果在很大程度上影响着后续一系列的信息处理精确度,因此提升词性标注的精确度,切实解决词性标注设计流程屮的瓶颈问题,如未登录词汇的有效识别、同义词的兼并处理及有效划分等,已经成为目前藏语词性标注中亟待解决的重要课题。基于调研发现,目前词性标注的主流方法有三种,分别是统计标注法、规则标注法以及两者融合的综合性标注方法。笔者结合本文的研究目标及汉语词性标注的经典理论及运用方法,选取统计标注法为切入点,展开对藏语词性标注的试验设计及效果
3、评估。一、藏文词性标注用的语料为了研究藏文词性标注,结合研究目标,本文选用三本常用的藏文书籍一一《藏汉大辞典》、《新编藏文词典》以及《藏文动词词典》为基准,通过程序设计对其中的词汇进行识别合并,最后构建一个蕴含7万余词汇的词性数据库。同时选用五个省份地区的藏文教材、目前主流的藏文著作为基本取材对象,经过汇总整理分析后共计12万余词汇,以其作为研究对象展开人工标注。同时,以此为统计数据信息来源,通过对语料的训练,获取所需的词汇概率和词性转移概率建立了语言模型。为解决在藏文词汇标注中所产生的数据信息稀疏的状况,本文采用基于
4、最小值的平滑设计算法展开研究,有效避免了上述问题的出现,在一定程度上提升了藏文词汇标注的精确度。在此基础上,运用现代化viterbi算法来展开对藏文信息屮词性的标注研究,以最优序列为研究样本。本文系统地研究了统计方法在藏文词性标注的应用、建立词性知识库和人工标注语料库,在一定程度上妥善处理了由于藏文词汇的同义词的兼并处理问题,经过试验测试得岀,其精确度在一定程度上得到了显著增加。二、HMM模型2.1模型原理HMM模型是一个双重的随机过程:第一、是系统状态变化的过程;第二:在隐马科夫模型体系中,当以随机模式展开状态接受符
5、号或状态生成信号时的全部运行过程,无法观察具体的运行环节,仅仅显示某个运行符号,状态木身不是直接观察到,因此叫“隐马科夫模型(I1MM)”o隐马科夫模型简称为IIMM,在语言词性的注释屮产生重要作用。其运行机制主要包含以下参数[1]:(1)标注系统用的词性标记集所包含的词性个数为N(2)词汇集W中的词汇个数为M(3)词性转移矩阵A二{a叮};是一个口行口列的矩阵,可用下列式子描述:训练语料中q出现在如之后£~训练语料中C-出现的总0(4)词汇概率矩阵B二{b了讣;可以用下列式子来描述:训练语料中注的词性为弗训练语料中f
6、出现的总;(5)初始分布n二(ni),其中n二P[cl二ni],l<=i_z、词性]在句首出现的次数兀-p(w,-cz)—语料中词性p出现的总次数如果给定一组N,M,A,B和兀后,就确定了一个HMM模型,H加I模型中的N,1隐含在A,B,Ji中,可简化为入二{A,B,兀}表示一个HMM。2.2HMM模型在藏文词性标注中的应用假设W为词汇集,给定的W=W1,W2,W3,•:Win为藏文中含兼类词词串,C=C1,C2,C3,・・・,Cm为可能的词性标注结果串,P(C
7、W)是给定W条件下C出现的概率。此时,若以此为最终范畴
8、,则在可能概率的最大确认上,可以以P(C
9、W)为准。C=argmaxP(C
10、W)根据贝叶斯(Bayes)定律,可以得到:P(CI炉)-P(c)P(wIC)C-argmaxP(C)P(W
11、C)P(W)其中P(W)为词串W的概率,是一常量,不需要考虑,因此上式可以化为:P(CIW)二P(C)P(WIC)P(C)是标记串c的概率,它的计箏用二元模型近似地表示P(C)O即假设一丿与出现在它前面的一个标记有关。那么F(C)UjP(C1)J~JP{Cia-1)其中P(c,
12、cJ袅示条件概率,可用评来计算,即:PCIC-)二_P(
13、ca9q)"p(j)式中q._i和q相邻同时出现在P(C_I9C),词类标记C-出现的在语料用然后就是对多项表达式中的P(WIC)J它数据基于C条件来求W的概率评估题nP(WC)^YP(Wici)基于统计学'誘概率进行变换标示:其中,语料库中词Wj取词类标记CjPC)语料库中词类标记G出现的次数为P(c[综合(1),(2),