基于统计和规则的中文姓名识别.pdf

基于统计和规则的中文姓名识别.pdf

ID:52390015

大小:165.23 KB

页数:2页

时间:2020-03-27

基于统计和规则的中文姓名识别.pdf_第1页
基于统计和规则的中文姓名识别.pdf_第2页
资源描述:

《基于统计和规则的中文姓名识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、信息与电脑人工智能与识别技术ChinaComputer&Communication2011年5月刊基于统计和规则的中文姓名识别赵伟张学安诚(天津南大通用数据技术有限公司,天津300384)摘要:本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。关键词:汉语自动分词;未登录

2、词识别;中文姓名识别;统计和规则中图分类号:TP39文献标识码:A文章编号:1003-9767(2011)05-0028-021.引言姓名概率。随着信息技术的飞速发展,中文信息处理技术已经渗透到计算机设中文姓名Name=XM,X是姓氏包括复氏,M为句中动词前应用的各个领域。自动分词是中文信息处理技术的基础,其中未登录非修饰部分,长度一般为1-2字,但不做具体限制。于是候选姓名概词的识别一直是自动分词的研究难点,越来越多的研究者致力于提高率:未登录词的识别效率。p(Name)=α×p(X)+β×p

3、m(M)+γ×pc(M),α+β+γ=1,其中中文姓名在未登录词中占有很大比例,所以中文姓名识别的正确p(X)表示姓氏概率,pm(M)表示M是作为名字的概率,pc(M):示M是率与召回率已经成为影响整体自动分词正确率与召回率的一个重要因作为称谓的概率:素。本文基于统计和规则提出一种中文姓名识别方法,实验表明该方法的正确率和召回率都较高,可以帮助进一步提高自动分词的识别效p(X)=,果。2.相关研究pm(M)=λ×+到目前为止,已有的中文姓名识别方法主要分为三类:基于规则的方法,基于统计的方法,基

4、于规则和统计的方法。μ×,[2][3][5]基于统计的方法主要依靠一个或多个具有代表性的训练语料库,通过统计一些频率信息来识别中文姓名。如姓名前置词、姓氏用p(M)=c字、名字用字、姓名尾置词等出现的频率信息。这种方法用纯数学的方法,比较简单,但缺点是研究所使用的语料库都是人为地选取的,λ是单字名的概率,μ是双字名的概率。这两个参数可以通过统一般规模比较小,很难保证它能体现实际中文姓名分布的一般规律。计信息得到。该候选姓名概率很好的解决了有姓无名,有名无姓不好另外纯粹利用统计算法,不能完全体现中

5、文姓名的构成规律。区分的问题,同时考虑了这些可能,主要满足其中一种情况,概率值[4][6]基于规则的方法主要依靠中文姓名的结构和特征,考虑了中都很得到很好的体现。对于“李明院长”,因为充分利用了称谓一定文姓名的上下文信息来识别中文姓名。该方法主要是利用两种信息:会更容易识别。α、β、γ分别代表p(X),pm(M)和pc(M)对整体候选姓氏用字分类和限制性成分。分析过程中,当扫描到具有明显特征的姓名概率评估的权值。他们的取值可以通过训练而来,一般姓氏对整姓氏用字时,开始触发姓名的识别过程。并采集姓

6、名前后的指界词、体评估的权值α比重相对会占得大一些。称谓词等相关信息,对姓名的前后位置进行限制。在缺乏大规模熟语作为判断候选姓名的依据,一定要有一个概率阈值,这个阈值往料库的时候,规则似乎是唯一可行的方法。这种方法减少了对语料库往通过训练得到,大于此概率阈值的便可作为候选姓名进入到规则筛的依赖,但缺点是中文姓名的识别规则会或多或少的存在遗漏,而且选。这些规则是人为设计的,很难针对所有语料库都适用。3.2规则筛选[1][7][8]基于规则和统计相结合的方法结合了两者的优点,一方面通姓名不是孤立存在

7、的,而是作为句子的一部分出现的,那么利用过概率计算来减少方法的复杂性与盲目性,另一方面通过规则的使用姓名所在位置的前后相关信息可以帮助进一步确定姓名,即在候选姓降低对语料库规模的要求。目前的研究大多采取规则与统计相结合的名的基础上进行筛选。方法,只是规则与统计的侧重不同。一个简单的句子只由主谓宾三部分组成。姓名往往做句子的主3.中文姓名识别语和宾语。句子中总会出现动词,用于指示主语的行为,或宾语被施中文姓名的识别过程分为两步。基于统计的方法先获得候选姓与的行为等。主语在动词前,宾语在动词后,减去

8、修饰成分他们的位名,通过数学运算可以在比较短的时间内从大量信息中提取出可能的置几乎是紧邻的,知道动词的位置也就能辨别出主语和宾语的所在位候选姓名。而后利用规则从候选姓名中筛选。规则比起数学运算要慢置。因而利用好动词,可以对姓名的识别起到很好的提示作用。了很多,但精确程度要高。因而先使用统计后使用规则的步骤可以兼还有一些特殊的动词,不必考虑他的位置,只是单独从词性上就顾时间效率和识别效果。可以立刻判定姓名。因为这些动词是人类特有的。这种判断可以解决3.1候选姓名昵称很难被识别的情况。而不必考虑姓名

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。