资源描述:
《基于svmtool的中文词性标注》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第23卷第4期中文信息学报Vol.23,No.42009年7月JOURNALOFCHINESEINFORMATIONPROCESSINGJul.2009文章编号:1003一0077(2009)04一0016一06基于SVMT0ul的中文词性标注王丽杰,车万翔,刘挺(哈尔滨工业大学计算机学院信息检索研究室,黑龙江哈尔滨150001)摘要:SVMTol是建立在支持向贵机(SVM)原理上的序列标注工其,其有简单灵活高效的特点,可以触入大全的语言特征.该丈将SVMTol应用于中丈词性标注任务,将基于陈马尔科夫模型的基线系统准确率提升T2.07%.针对未登录词准确率不高的问
2、通,该丈加入了中丈字词的特征,包括构成汉字的布首特征和词t登特征,并从理论上分析了这两个特征的可行性,实脸显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均姗误率下降T7.40%关一询:计葬机应用;中丈信息处理;词性标注;SVMTol;未登录词;偏旁郑首中圈分类号:TP391文橄标识码:AAnSVMTol一BasedChinesePOSTaggerWANGLijie,CHEWan劝ang,LIUTing(InformationRetrievalLaboratory,HarbinInstituteofTeehnology,Harbin,Heilongji
3、ang150001,China)A加tract:TheSVMTol15asimple,flexibleandeffeetivegeneratorofsequentialtaggerbasedonSupportVeetorMaehines,eapableofdealingwithalargenumberoflinguistiefeatures.Inthispaper,SVMTol15appliedinChi-nesePOStaggingtaskandimprovestheaeeuraeyby2.07%eomparedwiththebaselinesystemontheH
4、iddenMarkovModel.TofurtherimProvetheaeeuraeyofunknownwords,weintrodueesomefeaturesofChineseeharae-tersandwords,suehasradiealsofChineseeharaetersandreduPlieatewords,andprobeintoatheoretiealanalysisfortheirfeasibility.Experimentsindieatethatthesefeaturesanimprovetheaeeuraeyofunknownwords
5、by一16%aswella:redueetheerrorrateby7.40%.Keywords:eomputerapplieation;Chineseinformationproeessing;partofspeeehtagging;SVMTool.unknownwordradiealsofChinese23.6%!∀然而,各种多标记词在特定的上下文中总1引言是具有确定的词性同样,未登录词在特定的上下文中也是具有词性的所谓词性标注(PartofSpechtagging)就是根词性标注是自然语言处理领域的基础,可以提据句子上下文中的信息给句中的每个词一个正确的高
6、信息检索的效果和效率,它在信息检索领域有着词性标记,即确定每个词的词性是名词动词形容非常重要的作用!2∀国内外该方面研究人员很重视词或者是其他词性词性标注主要是针对多标记词它,成功设计出很多词性标注模型.归纳起来,比较(即有多种词性的词)和未登录词(即在训练语料中典型的标注算法有:未出现的词)进行的据统计,Brown语料库中英(l)基于规则的方法语词汇多标记词的出现次数占5.2%[l];一个13基于规则的标注系统与系统设计者的语言能力万词的汉语语料库中多标记词的出现次数占有关,规则集直接体现了设计者的语言能力最初收稿日期:2008一06一23定稿日期:20
7、08一12一29甚金项目:国家自然科学基金资助(60803093,60675034);国家863计划资助项目(Zoo8AA0lZ144)作者简介:王丽杰(1986一),女,硕士生,主要研究方向为自然语言处理;车万翔(1980一),男,讲师,主要研究方向为自然语言处理和信息检索;刘挺(1972一),男,教授,博士,主要研究方向为自然语言处理和信息检索.1期王丽杰等:基于SVMTol的中文词性标注的词性标注系统就是采用了这种方法,著名的[7∀介绍,SVMTool的标注准确率已经超过基于隐TAGGIT系统,利用3300条上下文规则,对100万马尔科夫模型的