基于地理编码的半自化地址匹配在生产中实践与应用

时间:2022-10-09 04:26:04

基于地理编码的半自化地址匹配在生产中实践与应用

[摘 要]在GIS行业应用中,地址是重要空间数据源,由于各部门各行业数据在采集、登记过程中的标准不同,地址描述存在很大的差异,截至目前,还没有非常有效的快速地址自动匹配方法,也没有非常成熟的相关软件可以直接利用。因而地址自动匹配一直是一个倍受重视的理论与实践问题,其中速度和准确度一直是关注的焦点。本文结合当前生产实际,利用当前建设的标准地名地址数据库,总结工商、民政、公安、税务、统计、电力等部门的地址描述信息的特点,制定了半自动化地址匹配生产方式,以提高地址数据采集的效率与准确性。

[关键词]地址匹配;地理编码;地址标准化;精确定位;模糊定位

中图分类号:V245 文献标识码:A 文章编号:1009-914X(2017)11-0024-01

1 引言

根据调查显示,城市信息中80%都与地理位置有关,但这些信息中大多数却没有空间坐标,自然就无法整合,无法进行空间分析,这对于城市信息化建设来说,是一个极大的阻碍,因此需要一种将大量的非空间信息高效的转化成空间信息的方法。在这庞大的城市空间信息中,其中又有80%行业管理中目前通过地址信息登记对城市相关管理内容进行统一管理,如工商法人数据、税务登记信息等。

近年来,城市管理中各行业为实现业务的精细化管理,信息化建设不断加强,对空间化管理的需求也越发迫切,但由于庞大的空间信息数据量庞大、建设周期长,对信息化建设的推进造成了极大延滞作用。针对这种情况,找到一N快速、高效的方法,将大量的与地理位置相关的信息通过自动化地址匹配的方式,将极大地提高各行业部门管理时间精细化管理进程的推进。

本文在近两年来为嘉兴市工商管理局、嘉兴市地方税务局、嘉兴市统计局、嘉源公司等进行用户、住户信息定位的基础上,总结了一种基于地理编码的半自动化地址匹配方法,提高了数据生产效率、生产质量,大大缩减了数据生产周期。

2 地址匹配

2.1 地址匹配

地址匹配是指确定具体地址事件的空间位置并且将其绘制在地图上,其目标是为任何输入的地址数据返回最准确的匹配结果。[1]

地理编码,是指在地理特征中加入地址属性,并通过该编码与其他城市空间信息建立联系,从而实现地址信息的空间定位,实现地址信息与空间信息的双向转换,实现地址描述与空间坐标的快捷对应。

2.2 地址数据

根据数字城市的建设要求,我市现建有标准的地名地址数据库,该数据库依据嘉兴市地名委员会办公室行政审批、日常管理的权威资料,参照《地理信息公共服务平台 地理实体与地名地址数据规范》等技术规范要求建成。标准的地址库中的数据包括如地名、道路、门牌号、楼牌号、自然村等,以及存储这些位置数据所对应的地图定位信息(即空间坐标)。

2.3 行业应用中的地址数据差异分析

当前各行业中应用的地址数据中,由于不同的行业和机构根据自身要求采用不同的方式采集,利用地址信息,导致数据格式大不相同,具体表现在:

第一,由于没有统一的标准,各部门的地址表示方式不统一。同一个地址有多种表示,比如“嘉兴市南湖区越秀南路王安里28幢115”;“ 越秀路王安里28幢”;“南湖区越秀南路363号王安里小区”等。

第二,多种地址类型并存的情况。地址中混合有门牌号,路口,小区,楼牌,单位名等多种表示。比如“嘉兴市南湖区中环南路318号”;“南湖区嘉兴市规划设计研究院”;“南湖区纺工路与中环南路路口向东100米”嘉兴规划院等。

第三,由于人为输入地址或者地址更新的原因出现的地址不统一,比如“南湖区醉李路300号”;“南湖区李路300号”。

以上的这些问题的存在,加大了地址匹配的难度,所以在结合已有的地址匹配的技术上,设计一个更有效的更可行的地址匹配方法并加以实现可以有效的提高工作效率。

2.4 行业应用中的地址数据采集方式

传统的数据采集方法,就是通过人工的方法到实地去采集地址的坐标。这种的方法,由于成本太高,很显然已经不适应大量非空间信息的处理。

现今如何将大量的地址数据批量且准确地进行空间定位,这就需要一套符合实际情况且有效的地址规律性和统一的标准。本文采用地址匹配技术实现数据的自动匹配更新,可以达到已有资源的最大利用和数据维护和更新成本的最低化。

3 地理编码

3.1 地理编码方法

地理编码也可以被称为地址编码,是指在地理特征中加入地址属性,从而通过输入地址即能确定一个空间位置[2]。实现地理编码的方法有3种:定位到道路,定位到区域,以及定位到道路和区域相结合的方式。

定位到道路:是通过道路名和门牌号码进行匹配,在每一个路段都具有道路名和起止的门牌号码信息,在地理编码时,首先根据地址信息中道路名找到参考的相同名称的路段,然后根据地址信息中的门牌号和每个路段的起止门牌号码信息找到门牌号所在的路段,最后根据门牌号及该路段的起止门牌号码信息进行内插确定该记录在该路段上的位置[3]。

定位到区域:将地址中具有区域属性的记录与地图地址相应属性的区域记录进行比较,如果匹配成功,则将待查地址区域以点要素形式生成在地图的相应区域内。

实际情况中,定义到楼牌、门牌时这样的方法比一般的定位到道路更精确。即利用现有的楼牌、门牌信息再结合定义到区域的方法。

3.2 具体步骤

地理编码的一般操作步骤为地址标准化和地址匹配,地理编码的步骤如下图1。

地址标准化指在进行地址编码之前,把道路及其它地址处理为一种熟悉的,常用格式,纠正道路和地址名称的拼写形式等。即把要匹配的地址数据和参考地址数据中的格式进行统一。一般而言,参考数据的地理信息描述是十分详细的,但是要定位的数据的地址信息的详细程度就会参差不齐。GIS空间信息中出现的地址信息,按级别和常用关键字进行了简单归纳如表1。

第一步,对于匹配地址数据的输入错误以及位置不明的情况作预处理。地址信息的获取途径不相同导致数据质量的好坏,比如将要匹配的地址都处理成标准的如**市**区**道路**号,**小区**幢等。

第二步,对预处理完的地址数据进行一定的分解,即根据范围从大到小的顺序,市、县、镇、村,小区、道路、门牌等进行分解。

第三步,对于地址信息进行简化处理。主要包括:门牌简化法指固定的点(门牌或者大厦点),将定位地址全部简化到有关道路门牌号或者大厦点。单位名称简称化指去掉不必要的分词如有限责任公司,带行政区域的市县乡镇名称,只带有关键字的信息。道路简化法,定位数据地址去除不必要信息,只留取道路名称信息。小区、自然村定位简化法将地址信息简化成只剩小区名(带有幢号和房间号)或者自然村名。区域名称简化指地址信息描述中只有到村、社区、街道,某一区域的信息。

4 地址匹配实现

4.1 精势ヅ

将地址标准化后,运用ARCGIS中的工具JOIN,将属性表格进行匹配。完全相同的地址匹配出现即是精确匹配。得出匹配结果可信度比较高如图2所示。再通过坐标值附值可以达到地址的正确匹配。

4.2 模糊匹配

其它剩余大部分的地名地址的描述和参考数据相差很远,这就需要模糊的地址匹配方法。这里本文借鉴应用Apache软件提供的一个LUCENE的搜引擎,创建索引,然后用关键词去索引里找,按相似度的高低排序将结果排列出来,得出的匹配结果需要人工进行核对。

具体原理如图3、4、5。

根据连续输入地址和参考地址之间的几个重要因素:词语匹配的数量,连续匹配数量,匹配总长度等进行评分,按高低排列显示。

下面是一个匹配结果显示:匹配地址为要操作的数据地址;参考地址1和2为匹配结果按相似度的高低排列的(表2)。

其中经过人工判断:前两条参考地址1判断为匹配成功,后两条参考地址1和2都匹配失败。对于失败的记录,再寻找原因进行第二遍的匹配。

5 结论

本文在近两年来为嘉兴市工商管理局、嘉兴市地方税务局、嘉兴市统计局、嘉源公司等进行单位、法人、用户、住户信息定位的基础上,总结了一种基于地理编码的半自动化地址匹配方法,在项目过程中主要体现了以下几方面的优势:

第一,提高了数据生产效率、生产质量,大大缩减了数据生产周期。

第二,提高了地址数据匹配率,原始数据的匹配率为20%―30%,经几个项目实践,地址匹配率可达到70%―80%。

第三,提高了各部门资料的复用性,减少了重复建设的问题。

当然本文所探索的地址匹配方法由于以下原因亟待解决,以实现更快、更准地实现快速空间定位:

第一,当前采用的是标准地名地址数据库,历史资料不完整,而在各行业应用中,存在大量的历史地名、历史地址。

第二,各部门行业描述地址串时常有错字,别字,漏字的问题。

第三,各部门系统的地址编码模型、标准地址规范互不相同,导致大量的重复性建设,因此必须统一规划和建设城市地址编码系统。

参考文献

[1] ThomasH Grayson. AddressMatching and Geocoding[R].Massachusetts Institute of TechnologyDepartment ofUrbanStudies and Planning,2000.

[2] 江洲,李琦.地理编码的应用研究 [J].地理与地理信息科学,2003,19(3):22-25.

[3] 张伟锋,吴键平.ArcView软件中的地理编码方法改进[J].现代测绘,2003,26(4):29-30.

上一篇:管道应力分析在船舶热力管道中的应用 下一篇:型钢炼钢基于EXSI5.5的工业自动化应用