基于互信息的中文姓名识别方法_黄德根

基于互信息的中文姓名识别方法_黄德根

ID:5263938

大小:244.17 KB

页数:5页

时间:2017-12-07

基于互信息的中文姓名识别方法_黄德根_第1页
基于互信息的中文姓名识别方法_黄德根_第2页
基于互信息的中文姓名识别方法_黄德根_第3页
基于互信息的中文姓名识别方法_黄德根_第4页
基于互信息的中文姓名识别方法_黄德根_第5页
资源描述:

《基于互信息的中文姓名识别方法_黄德根》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第44卷第5期大连理工大学学报Vol.44,No.52004年9月JournalofDalianUniversityofTechnologySept.2004文章编号:1000-8608(2004)05-0744-05基于互信息的中文姓名识别方法黄德根*,马玉霞,杨元生(大连理工大学计算机科学与工程系,辽宁大连116024)摘要:提出并实现了一个基于互信息的中文姓名识别方法.该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引入互信息对其进行定量的描述;提出中文姓名的上下文互信息、内部互信息等概念,并对其建立了动态评价函数.开放测试结果表明,该方

2、法有效地提高了中文姓名识别的效果,保证了较高的精确率和召回率.关键词:中文姓名识别;互信息;上下文互信息;内部互信息中图分类号:TP391.12;H087文献标识码:A[4、5]0引言姓名识别起到校正或过滤筛选的作用;在统计意义上对其进行分级,从而影响到过滤阈值的确在汉语自动分词研究领域中,未登录词的自[3]定;采用姓名的接续可信度定量描述.动识别是主要难点之一.目前有关中文姓名识别本文在对真实文本统计分析的基础上,给出问题的研究已经比较深入,其中比较典型的算法中文姓名的上下文互信息、内部互信息等概念,定有:(1)基于规则的方法.它对中文姓名的构成特量描述姓名和其上下文

3、信息的关联程度以及姓名征及其上下文信息特征进行分析归纳,建立起规用字之间的关联程度,同时建立相应的评价函数则集.纯粹采用规则机制的模型比较少,一般要和交叉姓名评价函数,并在识别算法中引入动态结合统计方法来进行识别.(2)基于统计的方法.过滤阈值.该方法使用从姓名样本库或真实文本语料库中得到的关于姓氏用字概率与名字用字概率等大量的1互信息的引入[1~3]统计数据信息进行识别.(3)混合策略.它采互信息在信息论中是作为衡量两个信号关联用统计方法对姓名进行初次识别,利用规则机制程度的一种尺度,后来引申为对两个随机变量间[4、5]对其进行校正过滤.还有其他一些方法,如利的关联程

4、度进行统计描述,可表示成这两个随机[6]用结合性识别姓名.变量的概率的函数.设I(x,y)为随机变量x和y中文姓名的姓氏用字相对比较集中,名字用的互信息,则字分布虽然较姓氏要分散,但相对整个汉字集而P(x,y)言依然相对集中.针对这一特点,现有的中文姓I(x,y)=log2P(x)P(y)(1)名识别方法或从姓名库或从语料库对姓氏用字与式中:P(x)和P(y)分别是x和y独立出现的概名字用字进行统计得到它们的概率估值,并依此率,P(x,y)是x和y同现的概率.I(x,y)m0,表计算出姓名的概率估值,最后,根据给定的过滤阈明x和y的关联程度强;I(x,y)≈0,表明x和

5、y值对姓名进行取舍.此外,姓名作为一种特殊名的关联程度弱,它们的同现仅属偶然;I(x,y)n词,有其特有的语言环境,如经常与称谓词(“教0,表明x和y互补分布,不存在关联关系.授”、“先生”等)、具有指示作用的动词(“说”、在研究自然语言词汇的搭配关系时,互信息“走”等)或副词(“已经”、“也”等)接续出现.利被作为描述两个字或两个词之间关联程度大小的用这部分特征信息的识别特点有:以规则方式对收稿日期:2003-08-20;修回日期:2004-07-20.基金项目:国家自然科学基金资助项目(60373095).作者简介:黄德根*(1965-),男,博士,副教授;杨元生(

6、1946-),男,教授,博士生导师.第5期黄德根等:基于互信息的中文姓名识别方法[7、8]量度,并在语音识别、解决汉语自动分词中的式中:name为一个潜在姓名;Fi、Bj分别为潜在姓[9][10]交集型歧义及规则量化等方面取得了较好名name的前同现词和后同现词(i,j分别是自然的效果.本文把句子中单词的出现当做一种随机数,i≥1,j≥1);P(name)为真实姓名集合在实过程,并定义有限集Y为文本中所有姓名的集合,际语料词语中的概率(name为实际语料中的真实y为某一具体姓名,满足y∈Y;与y有关的上下姓名集合);P(Fi,name)、P(name,Bj)分别为真文信

7、息为x,由x组成的集合定义为集合X.对于实姓名集合与前同现词Fi的同现概率、真实姓名任意的y∈Y,其生成均受x的影响与约束.例集合与后同现词Bj的同现概率.如,两个句子中分别有“说”和“厘米”,判定“说”姓名的前同现词与后同现词不仅词语范围不的前同现词(出现在单词左边的词)是姓名的概同,且使用概率也不同,因此它们与姓名的互信息率要大于“厘米”的前同现词是姓名的概率.引入If和Ib的分布不同.为此,将互信息If和Ib进行[11]互信息可以准确地描述上下文信息x与姓名y的标准变换,使其成为标准的正态分布,并对姓这种关联关系.名的上下文互信息定

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。