基于角色标注的中文机构名识别

基于角色标注的中文机构名识别

ID:21727348

大小:127.50 KB

页数:9页

时间:2018-10-24

基于角色标注的中文机构名识别_第1页
基于角色标注的中文机构名识别_第2页
基于角色标注的中文机构名识别_第3页
基于角色标注的中文机构名识别_第4页
基于角色标注的中文机构名识别_第5页
资源描述:

《基于角色标注的中文机构名识别》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于角色标注的中文机构名识别*本文得到国家重点基础研究项目(G1998030507-4;G1998030510)和计算所领域前沿青年基金项目20026180-23资助作者俞鸿魁,男,1978年生,北京化工大学计算机系研究生,中科院计算所客座学生,主要研究方向为计算机语言学。张华平,男,1978年生,博士研究生,主要研究方向为计算语言学,中文信息处理与信息抽取。刘群,男,1966年生,在职博士研究生,副研究员,主要研究方向为机器翻译,自然语言处理与中文信息处理。俞鸿魁1,2张华平1刘群1,31中国科学院计算技术研究所软件研究室北京100080

2、2北京化工大学信息科学与技术学院北京1000293北京大学信息学院计算机系计算语言所北京100871E-mail:yhk@public3.bta.net.cn摘要:中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法,其基本思想是:根据在机构名识别中的作用,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还

3、在于:这些角色信息完全可以从真实语料库中自动抽取得到。通过对大规模真实语料库的封闭测试中,该方法取得了接近90%的召回率和准确率,即使在开放测试中,准确率也高达88%。不同实验从各个角色表明:基于角色标注的机构名识别算法是行之有效的。关键词:中文机构名识别;未登录词识别;角色标注;Viterbi算法RecognitionofChineseOrganizationNameBasedonRoleTaggingYUHong-Kui1,2ZHANGHua-Ping1LIUQun1,31InstituteofComputingTechnology,T

4、heChineseAcademyofSciences,Beijing,100080China2Informationscience&technologycollege,BeijingUniversityofChemicalTechnology,Beijing,100029China3Inst.ofComputationalLinguistics,PekingUniversity,Beijing,1000871ChinaE-mail:yhk@public3.bta.net.cnAbstract:automaticrecognitionofor

5、ganizationnameisemphasisanddifficultyfornamedentityidentification.Becauseoftheirinherentdeficiencies,previoussolutionsarenotsatisfactory.Thispaperpresentsanapproachfororganizationnamerecognitionbasedonroletagging.Thatis:tokensaftersegmentationaretaggedusingViterbialgorithm

6、withdifferentrolesaccordingtotheirfunctionsinthegenerationoforganizationname;thepossiblenamesarerecognizedafterstingidentificationontherolessequence.Duringtherecognitionprocess,onlythepossibilitiesoftokensbeingspecificrolesandthetransitionpossibilitiesbetweenrolesarerequir

7、ed.Thesignificanceisthatsuchlexicalknowledgecanbetotallyextractedfromcorpusautomatically.Inbothcloseandopentestonlargerealisticcorpus,itsrecallingrateandprecisionisnearly90%,andprecisionisnearly88%inopentest.Variousexperimentsshowthat:ourrole-basedalgorithmiseffectiveforor

8、ganizationrecognition.Keywords:organizationnamerecognition;unknownwordsrecognition;roleta

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。