资源描述:
《基于角色标注中文机构名识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于角色标注的中文机构名识别*本文得到国家重点基础研究项目(G1998030507-4;G1998030510)和计算所领域前沿青年基金项目20026180-23资助作者俞鸿魁,男,1978年生,北京化工大学计算机系研究生,中科院计算所客座学生,主要研究方向为计算机语言学。张华平,男,1978年生,博士研究生,主要研究方向为计算语言学,中文信息处理与信息抽取。刘群,男,1966年生,在职博士研究生,副研究员,主要研究方向为机器翻译,自然语言处理与中文信息处理。俞鸿魁1,2张华平1刘群1,31中国科学院计算技术研究所软件研究室北京1000802北京化
2、工大学信息科学与技术学院北京1000293北京大学信息学院计算机系计算语言所北京100871E-mail:yhk@public3.bta.net.cn摘要:中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法,其基本思想是:根据在机构名识别中的作用,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信
3、息完全可以从真实语料库中自动抽取得到。通过对大规模真实语料库的封闭测试中,该方法取得了接近90%的召回率和准确率,即使在开放测试中,准确率也高达88%。不同实验从各个角色表明:基于角色标注的机构名识别算法是行之有效的。关键词:中文机构名识别;未登录词识别;角色标注;Viterbi算法RecognitionofChineseOrganizationNameBasedonRoleTaggingYUHong-Kui1,2ZHANGHua-Ping1LIUQun1,31InstituteofComputingTechnology,TheChineseAca
4、demyofSciences,Beijing,100080China2Informationscience&technologycollege,BeijingUniversityofChemicalTechnology,Beijing,100029China3Inst.ofComputationalLinguistics,PekingUniversity,Beijing,1000871ChinaE-mail:yhk@public3.bta.net.cnAbstract:automaticrecognitionoforganizationnameis
5、emphasisanddifficultyfornamedentityidentification.Becauseoftheirinherentdeficiencies,previoussolutionsarenotsatisfactory.Thispaperpresentsanapproachfororganizationnamerecognitionbasedonroletagging.Thatis:tokensaftersegmentationaretaggedusingViterbialgorithmwithdifferentrolesac
6、cordingtotheirfunctionsinthegenerationoforganizationname;thepossiblenamesarerecognizedafterstingidentificationontherolessequence.Duringtherecognitionprocess,onlythepossibilitiesoftokensbeingspecificrolesandthetransitionpossibilitiesbetweenrolesarerequired.Thesignificanceisthat
7、suchlexicalknowledgecanbetotallyextractedfromcorpusautomatically.Inbothcloseandopentestonlargerealisticcorpus,itsrecallingrateandprecisionisnearly90%,andprecisionisnearly88%inopentest.Variousexperimentsshowthat:ourrole-basedalgorithmiseffectivefororganizationrecognition.Keywor
8、ds:organizationnamerecognition;unknownwordsrecognition;roleta