资源描述:
《融合形态特征的最大熵蒙古文词性标注模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、融合形态特征的最大熵蒙古文词性标注模型张贯虹1斯·劳格劳2乌达巴拉31合肥学院计算机科学与技术系网络与智能信息处理重点实验室合肥2306012内蒙古大学蒙古学学院呼和浩特0100213中国科学院合肥物质科学研究院合肥230001FusionofMorphologicalFeaturesforMongolianPartofSpeechBasedonMaximumEntropyModelZhangGuanhongS.LogloOdbal最大熵模型以其能够较好地包容各种约束信息及与自然语言模型相适应等优点在词性标注研究中取得了良好的效果.
2、因此,将其作为基本框架,提出了一种融合语言特征的最大熵蒙古文词性标注模型.首先,根据蒙古文构词特点及统计分析结果,定义并选取特征模板,利用训练语料提取了大量的候选特征集合,针对错误或者无效的特征通过设置一些规则筛选特征.然后,训练最大熵概率模型参数.实验结果表明,融合蒙古文形态特征的最大熵模型可以较好地标注蒙古文.2010-01-112010-11-09国家自然科学基金项目(60763003);教育部人文社会科学研究基金项目(09YZC740045)形态特征;最大熵模型;蒙古文;词性标注;参数估计TP391根据2.1时无需,@@[1
3、]Bril1E.Asimplerule-basedpartofspeechtagger[C]//HLT'91:ProcoftheWorkshoponSpeechandNaturalLanguage.Morristown,NJ:ACL,1992:112-116@@[2]BrillE.Transformationbasederrordrivenlearningandnaturallanguageprocessing:Acasestudyinpartofspeechtagging[J].ComputationalLinguistics,1
4、995,21(4):543-565@@[3]BlackE,JelinekF,LaffertyJ,etal.Decisiontreemodelsappliedtothelabelingoftextwithparts-of-speech[C]//HLT'91:ProcoftheWorkshoponSpeechandNaturalLanguage.Morristown,NJ:ACL,1992:117-121@@[4]BrantsT.TnT:Astatisticalpartofspeechtagger[C]//Procofthe6thCon
5、fonAppliedNaturalLanguageProcessing.Morristown,NJ:ACL,2000:224-231@@[5]LeeSZ,TsujiiJI,RimHC.LexiealizedhiddenMarkovofArabic[C]//ProcoftheACLWorkshoponComputationalmodelsforpart-of-speeehtagging[C]//Procofthe18thConfApproachestoSemiticLanguages.Morristown,NJ:ACL,onCompu
6、tationalLinguistics.Morristown,NJ:ACL,2005:1-82000:481-487@@[13]FadaciH,ShamsfardM.PersianPOStaggingusing@@[6]Bar-haimR,Sima'anK,WinterY.Partofspeechtaggingotprobabilisticmorphologicalanalysis[J].InternationalmodernHebrewtext[J].NaturalLanguageEngineering,JournalofComp
7、uterApplicationsinTechnology,2010,382008,14(2):223-251(4):264-273@@[7]GimenezJ,MarquezL.Fastandaccuratepartofspeech@@[14]Odbal.TheresearchontheMongolian-Englishmachinetagging:TheSVMapproach[C/OL]//Proeofthe4thInttranslationsystembasedonahybridmethod[D].Hohhot:ConfonRec
8、entAdvancesinNaturalLanguageProcessing.InnerMongoliaUniversity,2007(inChinese)2003:158-165.[2010-01-08].http://www.Is