资源描述:
《基于语义组块分析的汉语语义角色标注》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第23卷第5期中文信息学报Vol.23,No.52009年9月JOURNALOFCHINESEINFORMATIONPROCESSINGSep.,2009文章编号:1003-0077(2009)05-0053-09基于语义组块分析的汉语语义角色标注丁伟伟,常宝宝(北京大学计算语言学研究所,北京100871)摘要:近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的/句法分析)))语义角色识别)))语
2、义角色分类0,而是一种简化的/语义组块识别)))语义组块分类0流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。关键词:计算机应用;中文信息处理;语义角色标注;语义组块分析;条件随机域;序列标注中图分类号:TP391文献标识码:
3、AChineseSemanticRoleLabelingBasedonSemanticChunkingDINGWeiwei,CHANGBaobao(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)Abstract:Inrecentyears,theChineseSRL(semanticrolelabeling)hasarousedtheintensiveattention.ManySRLsystemshavebeenbuiltontheparsingtrees,inwhichtheconsti
4、tuentsofthesentencestructureareidentifiedandthenclassified.Incontrast,thispaperestablishesasemanticchunkingbasedmethodwhichchangestheSRLtaskfromthetraditional/parsing-semanticroleidentification-semanticroleclassification0processintoasimple/semanticchunkidentification-semanticchunkclassification0pi
5、peline.Thesemanticchunking,whichisnamedafterthesyn-tacticchunking,isusedtoidentifythesemanticchunk,namelytheargumentsoftheverbs.Basedonthesemanticchunkingresult,theChineseSRLcanbechangedintoasequencelabelingprobleminsteadoftheclassificationprob-lem.Weapplytheconditionalrandomfieldstotheproblemandg
6、etbetterperformance.Alongwiththeremovaloftheparsingstage,theSRLtaskavoidsthedependenceonparsing,whichisalwaysthebottleneckbothofspeedandprecision.Theexperimentshaveshownthattheoutperformsofourapproachpreviouslybest-reportedmethodsonChineseSRLwithanimpressivetimereduction.Wealsoshowthattheproposedm
7、ethodworksmuchbetterongoldwordsegmentationandPOStaggingthanontheautomaticresults.Keywords:computerapplication;Chineseinformationprocessing;semanticrolelabeling;semanticchunking;con-ditionalrandomfields;sequencela