资源描述:
《汉语自动分词中中文地名识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第46卷第4期大连理工大学学报Vol.46,No.42006年7月JournalofDalianUniversityofTechnologyJul.2006文章编号:100028608(2006)0420576206汉语自动分词中中文地名识别3高红,黄德根,杨元生(大连理工大学计算机科学与工程系,辽宁大连116024)摘要:以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最
2、佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F21值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F21值81.42%.取得了比较令人满意的结果.关键词:中文地名识别;汉语自动分词;未登录词识别中图分类号:TP391.12文献标识码:A0引言桥镇”、“南化村”等,其中“临川”、“双桥”、“南化”为地名专名,“市”、“镇”、“村”为地名通名.单字未登录词是影响汉语自动分词精度的主要因通名包括行政区划名称,如“省、市、县、区、乡、镇、素.未登录词识别也受到不
3、正确分词结果的影村、旗、州、府”等,也包括表示地形地貌的,如响.因此,研究者们提出了各种基于单个汉字的“江、河、山、洋、海、岛、峰、湖”等,还包括表示自[1、2]未登录词识别方法.本文就未登录词中的中然区划的“街、路、巷、庄、堡”等.在地名识别中,文地名识别进行研究,在基于单个汉字产生潜在单字通名被称为地名特征字,地名特征字属于地地名的基础上将中文地名识别与汉语自动分词同名内部用字,即地名尾字.如果地名由专名和两时进行,这样可以避免不正确的分词结果对地名字以上的通名构成,本文只标识其专名部分,如在识别的负面影响.根据地名内部用字的统计信息“宣城
4、地区”、“华北平原”、“安顺胡同”中,只标识和构成特点产生潜在地名并计算其作为地名的可“宣城”、“华北”、“安顺”为地名,“地区”、“平原”信度.可信度较高的潜在地名等同于句子的其他和“胡同”作为地名的后词.候选切分词,利用候选切分词本身的可信度和上本文的测试语料是北京大学计算语言研究所下文接续关系评价句子的各种切分方案,在确定加工的1998年1月份《人民日报》.对语料不进行句子最佳切分时识别句子中的中文地名.任何筛选,以真实语料为测试集.本文以词语级的中文地名为识别对象.由于在汉语中词是没有确切定义的概念,本文参照北1汉语自动分词中文地名识别
5、方法京大学计算语言研究所的《北大语料库加工规[3]范》(2003版),每个切分单位就是一个单词.词1.1潜在地名语级的地名包括:(1)只有专名的地名,如“日喀潜在地名是在上下文无关的条件下,单纯依则”、“白洋淀”、“昌都”、“丰台”等.在地名识别靠地名的内部用字产生的.中文地名用字比中文中,这类地名通常被称为没有特征字的地名.(2)姓名用字要分散、自由得多,但相对于整个汉字集由专名和单字通名构成的地名,如“临川市”、“双而言还是比较集中的.本文根据国家测绘局地名收稿日期:2004212215;修回日期:2006203230.基金项目:国家自然科
6、学基金资助项目(60373095;60373096;60573022);高等学校博士学科点专项科研基金资助项目(20030141003).作者简介:高红(19762),女,博士生,E2mail:gaohong@student.dlut.edu.cn;黄德根3(19652),男,博士,教授;杨元生(19462),男,教授,博士生导师.第4期高红等:汉语自动分词中中文地名识别[4]研究所编纂的《中国地名录》,统计出地名首字整参数,取经验值.表1是在多次试验中识别结2381个,中间字1827个,尾字1810个作为地名果较好的3组参数值,其中第2组的识
7、别结果最首字、中间字和尾字用字表,用FCL、MCL和好.LCL表示.表1参数KWn、KHn和KTn的经验值和相应识别结如果汉字串c1c2⋯cn满足c1∈FCL,c2,⋯,果的比较cn-1∈MCL并且cn∈LCL,则称c1c2⋯cn为潜在Tab11ParametersKWn,KHn,KTnandexperimentalresults地名,用Locname表示.KWnKHnKTnPö%Rö%Fö%很多地名包含多字词,据统计,在2015个地1.0×1081.0×1061.0×10692.9391.2192.06名中就包含了106个多字词.如果把地名中
8、的多1.0×1071.0×1051.0×10594.1493.5593.85字词、单字词或不构成词的单字看做地名的组成1.0×1061.0×1041.