基于角色标注的中国人名自动识别研究

基于角色标注的中国人名自动识别研究

ID:951209

大小:86.50 KB

页数:8页

时间:2017-10-06

基于角色标注的中国人名自动识别研究_第1页
基于角色标注的中国人名自动识别研究_第2页
基于角色标注的中国人名自动识别研究_第3页
基于角色标注的中国人名自动识别研究_第4页
基于角色标注的中国人名自动识别研究_第5页
资源描述:

《基于角色标注的中国人名自动识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、AutomaticRecognitionofChineseUnknownWordsUsingHMM基于角色标注的中国人名自动识别研究张华平zhanghp@software.ict.ac.cn刘群(LiuQun)Liuqun@ict.ac.cn中国科学院计算技术研究所软件实验室北京100080摘要:中国人名的识别是中文未登录词识别的重点和难点,目前的解决方案自身存在一些本质的缺陷,实际效果还难以满足实际需求。本文提出了一种基于角色标注的中国人名自动识别方法。即:利用从语料库中自动抽取的角色信息,采取Viterbi算法对切词结果进行角色标注,在

2、角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别。通过对16M字节真实语料库的封闭与开放测试,该方法取得了接近98%的召回率,准确率也得到了实际提高。实验数据证明:该方法是行之有效、能够成功解决中国人名的自动识别问题。关键词:未登录词识别;中国人名;角色标注1.引言词语分析是中文自然语言处理的前提和基础,中文词语分析的研究已经取得较大的进展,但在处理含有未登录词的文本时,其结果一般难以满足实际的需求。未登录词的错误识别,不仅仅使自身无法正确识别召回,而且往往与前后的其他字词交叉组合,严重地影响其他词的正确识别,从而直接的降低了词语

3、分析乃至整个句子分析的正确率。未登录词的自动识别已经成为了中文词语分析质量的实际瓶颈。中国人名在未登录词占有较大比重,也是未登录词识别的主要难点。根据我们对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,每100字中含未登录词1.192个(不计数词、时间词),其中48.6%的是中国人名。而中国人名的召回率仅为68.77%[1],其切分错误高达50%以上,对所有分词错误进行统计,姓名错误占了将近90%[2]。因此中国人名的自动识别是未登录识别问题的重点和关键,中国人名识别问题的解决也会改善汉语词语分析、句法分析乃至中文信

4、息处理的最终质量。1.1中国人名自动识别的困难中国人名数量众多,规律各异,有很大的随意性。其主要的困难在于:1.中国人名构成的多样性;2.人名内部相互成词;3.人名与其上下文组合成词;4.歧义理解。1.中国人名构成的多样性:(1)姓+名:张华平、张浩、西门吹雪、诸葛亮;(2)有名无姓:“春花点点头”;“杰,你好吗?”(3)有姓无名:“刘称赵已离开江西”;(4)姓+前后缀刘总、张老、小李、邱某;(5)港台已婚妇女:范徐丽泰、彭张青。2.人名内部相互成词,指的是姓与名、名与名之间本身就是一个已经被收录的词。如:[王国]维、[高峰]、[汪洋]、张

5、[朝阳]。根据我们对80,000条中国人名的统计,内部成词的比例高达8.49%。3.人名与其上下文组合成词的情况包括人名的首部(姓或名的首字)与人名的上文成词和人名的尾部(姓或名的首字)与人名的下文成词。例如:“这里[有关]天培的壮烈”;“费孝通向人大常委会提交书面报告”。在8人民日报1998年1月的语料库中,这种情况接近200例。4.歧义理解的主要是由同源冲突[3]引起的:例如:“河北省刘庄”;中的“刘庄”就是中国人名与地名的歧义,“周鹏和同学”存在人名“周鹏”和“周鹏和”的歧义[4]。1.2现有解决方案及其不足针对中国人名的自动识别问题

6、,人们已经作过很多的探索,并提出了多种解决方案。根据其使用的方法不同,这些方案大致可以分为三种:规则方法[2,4,5]、统计方法[6]以及规则与统计相结合的方法[1,7,8]。规则方法主要利用两种信息:姓氏用字分类[5]和限制性成分[8]。即:分析姓名用字,驱动对姓名的识别过程,并采集姓名前后相关的成分,对姓名的前后位置进行限制。小规模测试的结果表明,其准确率可以高达97%[4]。在缺乏特大规模熟语料库的时候,规则方法是唯一可行的方法。统计方法主要是针对姓名语料库来训练某个字作为姓名组成部分的概率值,并用它们来计算某个候选字段作为姓名的概率

7、,其中概率值大于一定阈值的字段为识别出的中国人名[6]。规则与统计相结合的办法,可以通过概率计算减少规则方法的复杂性与盲目性,而且可以降低统计方法对语料库规模的要求。目前的研究基本上都是采取规则与统计的方法,不同之处仅仅在于规则与统计的侧重不同而已。现有解决方案存在着本身固有的一些不足:首先,一般采取“单点(首或尾)激活”[4]的机制来触发人名的识别处理。即扫描到姓氏用字、职衔、称呼等具有明显姓名特征的字段时,才将前后的几个字列为候选姓名字段进行人名的识别。那些不具备明显特征的姓名往往会被丢失,如上文中提到的“有名无姓”的人名。其次,姓名候

8、选字段大都是选取切分后的单字碎片[1,2,4,6],也有研究者将少量的二字或多字词纳入候选字段的选取范围[4]。在这种选取机制的作用下,人名内部成词以及人名与上下文成词的情况基本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。