基于条件随机场的中文人名性别识别研究

基于条件随机场的中文人名性别识别研究

ID:20634751

大小:112.40 KB

页数:6页

时间:2018-10-14

基于条件随机场的中文人名性别识别研究_第1页
基于条件随机场的中文人名性别识别研究_第2页
基于条件随机场的中文人名性别识别研究_第3页
基于条件随机场的中文人名性别识别研究_第4页
基于条件随机场的中文人名性别识别研究_第5页
资源描述:

《基于条件随机场的中文人名性别识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于条件随机场的中文人名性别识别研究*越晓凡牛承志2,刘永革1(1.安阳师范学院计算机与信息工程学院,河南安阳455002;2.郑州大学第一附属医院信息科,河南郑州455000)E-mail:zxfanfan922@tom.com摘要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应川。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封W测试,正确率可以达到90%以上。实验证明:在人名库屮识别性别,名字用字的作用要岛于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字屮。关

2、键字:性别识别;中文人名要素;命名实体识别;特征选择;条件随机场中图分类号:TP391文献标识码:八CRFs-basedapproachtogenderrecognitionofChinesenameZHAOXiao-fan1,NIUCheng-zhi2,LIUYong-ge1(1.SchoolofComputerandInformationEngineering,AnyangNormalUniversity,AnyangHenan455(X)2;2.TheInformationDepartmentoftheFirstAffiliatedHospitalofZhengzhouUniver

3、sity,Zhengzhou455(XX))E-mail:zxfanfan922@tom.comAbstract:GenderrecognitionofpersonnamecanbeusedinnaturallanguageprocessingwhichisaspecificapplicationofNamedEntityRecognition.GenderrecognitionmethodmakesuseofthestructureandvocabularyinformationofChinesepersonalname.TheexperimentonthebasisofCRFsisd

4、esignedbyconstructingpersonnameannotationsetandselectingsuitablefeaturemodelusingNLPtechnology.Throughtheclosedteston231337personnames90.08%accuracyisgot.Theexperimentprovesthattheeffectofthelastnameingenderrecognitionishighertotheroleofthefirstnameandgenderdifferencescanbefoundfromthenamesbasedo

5、nmachinelearningKeywords:genderrecognition;Chinesenameelement;NamedEntityRecognition;featureselection;conditionalrandomfieldso引言目前命名实体识别(NamedEntityRecognition,NER)仍然是屮文信息处理的难点和热点,对未登录词的处理,其结果往往很难满足需求。人名的出现是影响未登录词识别正确率的关键。在《人民日报》1998年1月的语料库(共计2305896字)中,平均每100个字包含未登录词1.192个(不计数词、时间词),其巾61.34%的未登录

6、词是人名。人名作为一个符号,对单个的个体应该具有很高的辨识度。按照日常生活的经验和人们的习惯,起名用字往往与性别相关。文献丨51对7万屮国人名的90个常用尾字进行非参数基金项目:由国家自然科学基金(60875081)河南省教冇厅髙等学校青年骨干教师项目(2009GGJS-108)支持。作荞简介:赵晓凡(1981-),女,河南安阳人,讲师,硕士,研宄方向为ft然语言处理,汉语分词,信息基于条件随机场的中文人名性别识别研究*越晓凡牛承志2,刘永革1(1.安阳师范学院计算机与信息工程学院,河南安阳455002;2.郑州大学第一附属医院信息科,河南郑州455000)E-mail:zxfanfa

7、n922@tom.com摘要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应川。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封W测试,正确率可以达到90%以上。实验证明:在人名库屮识别性别,名字用字的作用要岛于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字屮。关键字:性别识别;中文人名要素;命名实体识别;特征选

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。