资源描述:
《中文信息学报》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报第20卷第4期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.20No.4文章编号:1003-0077(2006)04-0068-073基于trigram语体特征分类的语言模型自适应方法梁奇,郑方,徐明星,吴文虎(清华大学计算机科学与技术系智能技术与系统国家重点实验室语音技术中心,北京100084)摘要:本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语
2、体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了5012%和2317%。关键词:计算机应用;中文信息处理;统计语言模型;trigram;自适应;语体;插值算法中图分类号:TP391文献标识码:ALanguageModelAdaptationBasedontheClassificationofaTrigram’sLanguageStyleFeatureLIANGQi,ZHENGFang,XUMing2xi
3、ng,WUWen2hu(TheStateKeylaboratoryofIntelligenceTechnologyandSystem,DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Inthispaper,alanguagestylebasedadaptivemethodforlanguagemodelisproposedbasedonthediffer2encesbetweenoralandwrittenlanguages.Severalinterpolatio
4、nmethodsbasedontrigramcountsareusedfortheadap2tation.AninterpolationmethodconsideringKatzsmoothingcomputesweightsaccordingtotheconfidencescoreofatrigram.Anadaptationmethodbasedontheclassificationofatrigram’sstylefeaturecomputesweightsdynamicallyaccordingtothetrigram’slanguagestyletendencywithsevera
5、lweightgenerationfunctionsproposed.ExperimentsonspokenChinesecorporashowthatthesemethodscouldreducetheChinesecharactererrorrateforpinyin2to2characterconversiontosomeextent,moreorless,andtheoneconsideringbothatrigram’sconfidenceandstyletendencya2chievedthebestperformancewithcharactererrorratereducti
6、onof5012%and2317%,respectively,comparedwithtwobaselinesinthispaper.Keywords:computerapplication;Chineseinformationprocessing;statisticlanguagemodel;trigram;adaptation;lan2guagestyle;interpolationmethod1引言通常用于训练统计语言模型的语料绝大多数都是书面语的,因此训练出来的语言模型实际上是书面语语体的语言模型。在现实生活中,如在当面交谈、打电话、网上聊天、发手机短信等时,人们大都使用口语。口语和
7、书面语之间是存在一些差异的,在这些应用场合输入汉字所3收稿日期:2005-06-25定稿日期:2006-06-02作者简介:梁奇(1981—),男,硕士研究生,主要研究方向为统计语言模型.68[1][2]使用的中文整句输入法或随意发音的语音识别器如果仍然使用书面语训练出来的语言[3]模型,应用条件和训练条件是不一致的,必将造成系统总体性能的下降。从最大似然估计方法的原理可知,如果有充分的口语语料,那么训练出来