欢迎来到天天文库
浏览记录
ID:20634751
大小:112.40 KB
页数:6页
时间:2018-10-14
《基于条件随机场的中文人名性别识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于条件随机场的中文人名性别识别研究*越晓凡牛承志2,刘永革1(1.安阳师范学院计算机与信息工程学院,河南安阳455002;2.郑州大学第一附属医院信息科,河南郑州455000)E-mail:zxfanfan922@tom.com摘要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应川。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封W测试,正确率可以达到90%以上。实验证明:在人名库屮识别性别,名字用字的作用要岛于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字屮。关
2、键字:性别识别;中文人名要素;命名实体识别;特征选择;条件随机场中图分类号:TP391文献标识码:八CRFs-basedapproachtogenderrecognitionofChinesenameZHAOXiao-fan1,NIUCheng-zhi2,LIUYong-ge1(1.SchoolofComputerandInformationEngineering,AnyangNormalUniversity,AnyangHenan455(X)2;2.TheInformationDepartmentoftheFirstAffiliatedHospitalofZhengzhouUniver
3、sity,Zhengzhou455(XX))E-mail:zxfanfan922@tom.comAbstract:GenderrecognitionofpersonnamecanbeusedinnaturallanguageprocessingwhichisaspecificapplicationofNamedEntityRecognition.GenderrecognitionmethodmakesuseofthestructureandvocabularyinformationofChinesepersonalname.TheexperimentonthebasisofCRFsisd
4、esignedbyconstructingpersonnameannotationsetandselectingsuitablefeaturemodelusingNLPtechnology.Throughtheclosedteston231337personnames90.08%accuracyisgot.Theexperimentprovesthattheeffectofthelastnameingenderrecognitionishighertotheroleofthefirstnameandgenderdifferencescanbefoundfromthenamesbasedo
5、nmachinelearningKeywords:genderrecognition;Chinesenameelement;NamedEntityRecognition;featureselection;conditionalrandomfieldso引言目前命名实体识别(NamedEntityRecognition,NER)仍然是屮文信息处理的难点和热点,对未登录词的处理,其结果往往很难满足需求。人名的出现是影响未登录词识别正确率的关键。在《人民日报》1998年1月的语料库(共计2305896字)中,平均每100个字包含未登录词1.192个(不计数词、时间词),其巾61.34%的未登录
6、词是人名。人名作为一个符号,对单个的个体应该具有很高的辨识度。按照日常生活的经验和人们的习惯,起名用字往往与性别相关。文献丨51对7万屮国人名的90个常用尾字进行非参数基金项目:由国家自然科学基金(60875081)河南省教冇厅髙等学校青年骨干教师项目(2009GGJS-108)支持。作荞简介:赵晓凡(1981-),女,河南安阳人,讲师,硕士,研宄方向为ft然语言处理,汉语分词,信息基于条件随机场的中文人名性别识别研究*越晓凡牛承志2,刘永革1(1.安阳师范学院计算机与信息工程学院,河南安阳455002;2.郑州大学第一附属医院信息科,河南郑州455000)E-mail:zxfanfa
7、n922@tom.com摘要:中国人名性别的自动识别可以应用在自然语言处理领域,是命名实体识别的一个具体应川。文章根据人名的结构和用字信息,构建人名标注集,选择6组特征模板集,利用条件随机场进行模型训练,在231337个人名数据库中经过封W测试,正确率可以达到90%以上。实验证明:在人名库屮识别性别,名字用字的作用要岛于姓氏用字,且从机器学习的角度来说性别差异可以体现在人名用字屮。关键字:性别识别;中文人名要素;命名实体识别;特征选
此文档下载收益归作者所有