基于条件随机场的中文地址要素识别方法

基于条件随机场的中文地址要素识别方法

ID:46600434

大小:267.84 KB

页数:3页

时间:2019-11-26

基于条件随机场的中文地址要素识别方法_第1页
基于条件随机场的中文地址要素识别方法_第2页
基于条件随机场的中文地址要素识别方法_第3页
资源描述:

《基于条件随机场的中文地址要素识别方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2010,46(13)129基于条件随机场的巾文地址要素识别方法蒋文明,张雪英,李伯秋JIANGWen-ruing,ZHANGXue-ying,LIBo-qiu南京师范大学虚拟地理环境教育部重点实验室,南京210046KeyLabofVirtualGeographicalEnvironment,MinistryofEducation,NanjingNormalUnivemit)r,Nanjing210046,ChinaE-mail:jiangwm.uj@gmaa.cornJIANGWen-。ZHANG

2、Xue-yillg。LIBo—qiu.CRFs—basedapproachtorecognitionofChineseaddresselement.EngineeringandAppfications,2010。46(13):129-131.Abstract:BecauseofthenonstandardnamedChineseaddressanddescfiptioncharacterofChineselanguage.recognitionofChi—Ileseaddresselementshasbeenregarded鹊keyissuesofChinesegeocoding.I

3、tisdifficulttoresolvetheproblemofaddressnaruediversitybytraditionalmethodofcharacterwordsmatchinganddictionaryorgazetteermatching.ChineseaddressrecognitionmethodOilthebasisofCRFsisdesignedbyconstructingaddressannotationsetusingNLPtechnology.TheexperimentprovesthatCRFsbasedmethodisbetterthanchar

4、acterbasedrulemethodinrecognitionresuh.AsCRFsmodelhasgoodgeneralizationability,thismethodhasgreatergeneralitythatespeciallyfitsforlarge-scalebatchparsingandquickgeocodinginLBS.Keywords:geocoding;Chineseaddresselement;naturalhnguageprocessing;conditionalrandomfields摘要:由于中文地址命名的不规范性和汉语语言特点,中文地址要素

5、识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法。难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识另日效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。关键词:地址编码;中文地址要素;自然语言处理;务件随机场DOI:10.37786.issn.1002—8331.2010.13.038文章编号:1002—8331(2010)13—0

6、129—03文献标识码:A中图分类号:TP391引言地址编码是将自然语言描述的地址位置信息,根据既定的地址模型和编码规则进行识别与解析,与对应的空间坐标信息或地理编码相关联的过程。利用地址编码技术可在地理空间参考范围中确定资源位置,建立空间信息与非空间信息间的联系,是空间分析的基础。地址编码包括地址标准化(AddressStandardization)和地址匹配(AddressMatching)两个部分Il】o作为地址的基本组成单元,地址要素的识别是地址匹配阶段的第—涉。中文地址要素识别指将中文地址文本拆分成具有相对独立位置语义的地址要素,同时对各地址要素进行类型标识的过程。从自然语

7、言处理的角度,其可以看作是一种特定的中文组块分析任务。与句法规则约束不同,中文地址要素组块序列包含的是空间区域的逐层约束。缺少形态、没有分隔符、地址特征字词的省略与冗余,这些中文地址特有的描述特征增加了中文地址要素识另lJ的难度,使其成为中文地址编码研究关注的难点之一。2研究背景目前,国外主流的G1S软件中都包含有成熟的地址编码模块,如ArcGIS的Geocoding和MapInfo的Mapmaker。而OGC也定义了地址编码的整体框架,对涉及的各类共享和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。