基于分词的地址匹配技术

基于分词的地址匹配技术

ID:32467801

大小:116.22 KB

页数:13页

时间:2019-02-06

基于分词的地址匹配技术_第1页
基于分词的地址匹配技术_第2页
基于分词的地址匹配技术_第3页
基于分词的地址匹配技术_第4页
基于分词的地址匹配技术_第5页
资源描述:

《基于分词的地址匹配技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于分词的地址匹配技术孙亚夫陈文斌(北京灵图软件技术有限公司,北京100094sunyafu@lingtu.com,chenwenbin@lingtu.com)摘要根据调查显示,城市信息中80%都与地理位置有关,而这些信息中大多数却没有空间坐标,自然就无法整合,无法进行空间分析。这对于城市信息化建设来说,是一个极大的阻碍。为了快速的推进数字化城市的建设和发展,有必要找到一种快速、高效的方法,将大量的与地理位置相关的信息,进行坐标编码,以便于GIS系统分析、查询。本文提出了一种“基于分词的地址匹配技术”,它能将大量的非空间信息高效的转化成空间信息,极大地提高了非空间信息数据的编码、录入效率。关键

2、词地理编码地址匹配GIS系统地址数据库1.引言随着互联网、信息技术、GIS技术的发展,人们的生活越来越多的依赖于地图。地图制作需要的数据从哪来了?传统的数据采集方法,我们称之为“扫街”,就是通过人工的方法,到实地去采集地址的坐标。这种“扫街”的方法,由于成本太高,很显然已经不适应大量非空间信息的处理。本文提出了一种“基于分词的地址匹配技术”,它是通过构造一种分级地址库的方法,并转换成地址分词库,采用基于地址词典的中文分词技术,实现地址匹配。采用这种方法,易于维护修改地址库,并构建一个可自学习的地址库,不断丰富完善,提高匹配范围与匹配精度。12.原理实现2.1.系统架构网络爬行器、网上Inter

3、net黄页搜集、论坛数查询匹配请求应据提取特商数据转化等工具⋯⋯用层数据纠错,地址压Web服务器缩等应用程序(ApacheDSO)地址匹配引擎反馈器SmartLS核心门牌号索引地址索引库POI索引层创建地址库工具地址库转换工具程序标准地址库地址要素标准库数SQLDBSQLDB①据地址分词人工检查、纠错准匹配日志交互工具备层其它POI道路门址行政区划2从上图可以看出,地址匹配分为三层,分别是:应用层、核心层、数据准备层。数据准备层处在整个架构的最底层,这主要是由于其提供了地址匹配引擎所需要的最基本的地理数据,没有基础数据,匹配引擎也无从谈起。中间层也就是地址匹配核心引擎,它主要利用数据底层提供的

4、基础数据,进行相关处理,并转化成引擎服务所需要的相关索引数据和地址分词数据。所有对外功能接口都由该引擎核心层完成。最上层就是应用层,在这个体系里,所有的对外应用,都是通过WEB服务实现,web服务则是采用ApacheDSO技术实现。地址匹配引擎通过web服务的方式对外发布,方便应用层灵活使用。2.2.应用层应用层利用核心层提供的软件功能,为外部提供各种应用。目前,地址匹配主要有以下应用。1)对外提供地址匹配引擎服务。2)利用地址匹配引擎实现地址数据的查重、纠错。3)批量处理没有经纬度标示的地址数据,即:实现地理编码。4)在现有的地址数据之上,采用地址匹配引擎,实现大规模扩充地理信息数据。目前,

5、由于“地址匹配技术”主要用于地址匹配服务,因此,文中涉及到“地址匹配”相关描述,很多都是指“地址匹配服务”。地址匹配引擎服务采用“Apache+DSO”的方式实现。2.3.核心层核心层为地址匹配提供软件功能实现。该层是地址匹配中最重要的一层,它直接关系到地址匹配的效果。地址匹配核心层目前主要有九大模块构成,分别是:地址匹配管理器,参数解析器,地址分词器,门牌检索器,楼牌检索器,方位词处理器,SmartLS检索器,组合排序器,测试模块。这九大模块相对独立,并基本上采用“高内聚、低耦合”的方式进行设计。2.3.1.模块介绍模块功能地址匹配管理器负责管理和协调搜索九大模块工作,并实现封装基本用户需求

6、功能。参数解析器负责对外部传来的参数进行解析。包括对含有多个参数和参数值的字符串进行解析。地址分词器负责把用户输入的地址拆分成多个更细的地址要素单元。每个地址要素单元,都有地址要素名称、地址级别、父地址信息、经纬度等。门牌检索器实现给定道路,在门牌索引文件中查找对应门牌号。在用户地址经过“地址分词器”拆分以后,如果地址要素中3含有门牌号,则通过其门牌索引ID,到门牌索引文件中查找相对应的门牌号。SmartLS检索器负责请求网络SmartLS服务,并提取、处理返回结果。组合排序器负责多个匹配结果的组合排序,并返回最终结果。测试模块负责对各个功能模块进行测试,保证地址匹配其他八大模块的稳定性。2.

7、4.数据层数据层在整个地址匹配架构中,承担着数据提取、加工、制作(转换)任务,为上层提供必须的数据支撑。目前根据功能可以将数据层分为三大工具,分别是:地址要素库创建工具、地址转化工具和地址分词交互工具。这三个工具在地址匹配数据层中承担着不同的角色和任务,他们缺一不可。4.3.1.标准地址要素库4.3.1.1.地址级别定义利用下面的图说明地址级别的关系。4香河园北里小区市北京市区、县钟楼湾街道、镇区

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。