基于统计和规则的中文姓名识别

基于统计和规则的中文姓名识别

ID:23378462

大小:56.00 KB

页数:7页

时间:2018-11-07

基于统计和规则的中文姓名识别_第1页
基于统计和规则的中文姓名识别_第2页
基于统计和规则的中文姓名识别_第3页
基于统计和规则的中文姓名识别_第4页
基于统计和规则的中文姓名识别_第5页
资源描述:

《基于统计和规则的中文姓名识别》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于统计和规则的中文姓名识别本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。关键词:汉语自动分词;未登录词识别;中文姓名识别;统计和规则1引言  随着信息技术的飞速发展,中文信息处理技术已经渗透到计算机应用的各个领域。自动分词是中文信息处理技术的基础,其中未登录词的识别一直是自动分词的研究难点,越来越多的研究者致力于提高未登录词的识别效率。

2、  中文姓名在未登录词中占有很大比例,所以中文姓名识别的正确率与召回率已经成为影响整体自动分词正确率与召回率的一个重要因素。本文基于统计和规则提出一种中文姓名识别方法,实验表明该方法的正确率和召回率都较高,可以帮助进一步提高自动分词的识别效果。2相关研究  到目前为止,已有的中文姓名识别方法主要分为三类:基于规则的方法,基于统计的方法,基于规则和统计的方法。  基于统计的方法[2][3][5]主要依靠一个或多个具有代表性的训练语料库,通过统计一些频率信息来识别中文姓名。如姓名前置词、姓氏用字、名字用字、姓名尾置词等出现的频率信息。这种方法用纯数学的方法,比较简单,但

3、缺点是研究所使用的语料库都是人为地选取的,一般规模比较小,很难保证它能体现实际中文姓名分布的一般规律。另外纯粹利用统计算法,不能完全体现中文姓名的构成规律。  基于规则[4][6]的方法主要依靠中文姓名的结构和特征,考虑了中文姓名的上下文信息来识别中文姓名。该方法主要是利用两种信息:姓氏用字分类和限制性成分。分析过程中,当扫描到具有明显特征的姓氏用字时,开始触发姓名的识别过程。并采集姓名前后的指界词、称谓词等相关信息,对姓名的前后位置进行限制。在缺乏大规模熟语料库的时候,规则似乎是唯一可行的方法。这种方法减少了对语料库的依赖,但缺点是中文姓名的识别规则会或多或少的存

4、在遗漏,而且这些规则是人为设计的,很难针对所有语料库都适用。  基于规则和统计相结合的方法[1][7][8]结合了两者的优点,一方面通过概率计算来减少方法的复杂性与盲目性,另一方面通过规则的使用降低对语料库规模的要求。目前的研究大多采取规则与统计相结合的方法,只是规则与统计的侧重不同。3中文姓名识别  中文姓名的识别过程分为两步。基于统计的方法先获得候选姓名,通过数学运算可以在比较短的时间内从大量信息中提取出可能的候选姓名。而后利用规则从候选姓名中筛选。规则比起数学运算要慢了很多,但精确程度要高。因而先使用统计后使用规则的步骤可以兼顾时间效率和识别效果。3.1候选姓

5、名  中文姓名长度一般为2-4字,姓氏有复姓,名字一般为1、2个字。但有很大的随意性,比如在很多语句中会出现有姓无名(“刘”),有名无姓(“小强”),称谓(“厂长”)等情况取代了姓名全称。为了解决这些情况的识别,本文使用如下公式计算候选姓名概率。  设中文姓名Name=XM,X是姓氏包括复氏,M为句中动词前非修饰部分,长度一般为1-2字,但不做具体限制。于是候选姓名概率:  p(Name)=α×p(X)+β×pm(M)+γ×pc(M),α+β+γ=1,其中p(X)表示姓氏概率,pm(M)表示M是作为名字的概率,pc(M):示M是作为称谓的概率:  p(X)=,  p

6、m(M)=λ×+  μ×,  pc(M)=  λ是单字名的概率,μ是双字名的概率。这两个参数可以通过统计信息得到。该候选姓名概率很好的解决了有姓无名,有名无姓不好区分的问题,同时考虑了这些可能,主要满足其中一种情况,概率值都很得到很好的体现。对于“李明院长”,因为充分利用了称谓一定会更容易识别。α、β、γ分别代表p(X),pm(M)和pc(M)对整体候选姓名概率评估的权值。他们的取值可以通过训练而来,一般姓氏对整体评估的权值α比重相对会占得大一些。  作为判断候选姓名的依据,一定要有一个概率阈值,这个阈值往往通过训练得到,大于此概率阈值的便可作为候选姓名进入到规则筛

7、选。3.2规则筛选  姓名不是孤立存在的,而是作为句子的一部分出现的,那么利用姓名所在位置的前后相关信息可以帮助进一步确定姓名,即在候选姓名的基础上进行筛选。  一个简单的句子只由主谓宾三部分组成。姓名往往做句子的主语和宾语。句子中总会出现动词,用于指示主语的行为,或宾语被施与的行为等。主语在动词前,宾语在动词后,减去修饰成分他们的位置几乎是紧邻的,知道动词的位置也就能辨别出主语和宾语的所在位置。因而利用好动词,可以对姓名的识别起到很好的提示作用。  还有一些特殊的动词,不必考虑他的位置,只是单独从词性上就可以立刻判定姓名。因为这些动词是人类特有的。这种判断可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。