基于地址匹配方法的POI数据更新研究

时间:2022-05-30 10:52:07

基于地址匹配方法的POI数据更新研究

摘要:中国电信114号码百事通平台的LBS业务在使用过程中,常常需要定期、大批量的对GIS数据库中的POI数据进行更新。针对电信公司的特点,在充分利用电信企业库中客户信息资源和地址库中空间信息资源的基础上,采用地址匹配技术实现POI数据的自动匹配更新,达到电信已有资源的最大利用和POI数据维护成本的最低化。

关键词:地址匹配;号码百事通;LBS;GIS数据库;POI;地址库

中图分类号:TP391文献标识码:A 文章编号:1009-3044(2010)01-1-02

Study on the Method of Address Matching in Update Data of POI

DAI Dong-dong

(Faculty of Information Engineering, China University of Geosciences, Wuhan 430074, China)

Abstract: In the Apply of Location Based Service business in China Telecom Released 114 voice seach service business,it usually needed to update a greate number of data of POI in GIS database.According to the character of China Telecom, makingfull use of customer information in China telecom enterprise database and spatial information in address database, use Address Matching technology to Update data of POI and has achieved the maximum utilization of China Telecom resources and minimum costs of POI data maintenance.

Key words: Address Matching;LBS;GIS Database;POI;Address Database

据统计,在人们的日常生活中,有80%的信息与位置相关,为了寻找某个人(或物)、某个地点,常常耗去大量的精力,因此实时深入准确的位置信息正在成为人们最渴求的信息之一。

POI(Points of interest,兴趣点),顾名思义,是令人感兴趣的点,点就是那些与人们活动密切相关的商家、公司、机构及一些公共设施等。

LBS(Location Based Service)就是基于位置的服务,它是利用GIS技术、空间定位技术和网络通信技术等技术,为用户提供空间地理位置信息的一种定位服务[1]。

在这样的需求推动下,以Google和百度为代表的搜索网站分别利用LBS技术建立了地图搜索服务,中国电信也利用其旗下的114号码百事通平台(以下简称号百)提供语音和电子地图位置服务。随着业务范围的不断扩大和时间的推移,号百LBS业务正面临着有效信息过时、现有POI数据不能满足客户要求的问题。因此,号百LBS业务的POI数据更新成了一项迫切需求。

1 号百LBS业务的特点及优势

号百LBS业务是以高效的GIS子系统为核心,并针对多种业务需求,为电信用户提供行业分类查询、行业优先推荐、周边热点查询、关键字查询、公交线路查询、驾车线路查询等功能 [2]。电信公司拥有庞大的客户,并拥有这些客户的详细资料,其中许多大型客户,如酒店、商场、办事机构和商业公司等,这些都是与人们生活密切相关的POI,同时这些客户希望通过号百这个平台向其他客户展示自己的服务和产品信息。一方面,这些客户的信息可以作为POI数据放到号百GIS库中,节省了购买这部分POI数据的费用;另一方面,号百LBS业务可以通过对商业客户优先推号的服务方式来获取收益。目前,电信各分公司都建立了自己的资源管理系统,通过资源管理系统中的分线盒可以定位用户的位置。因此只需将电信企业库中的客户资料库和资源管理系统中的地址库进行匹配,就可以获取包含客户详细信息和客户空间地理位置的空间数据。相对于其他位置服务运行商,它充分利用了中国电信的网络资源和信息资源,降低了基础POI数据的费用门槛。

2 基于地址匹配方法的POI数据更新处理

2.1 匹配数据分析

目前电信公司企业库中存在着大量的客户详细信息,但不包括客户的空间位置信息。同时电信公司的资源管理系统的GIS库中存在着与资源覆盖相关的地址库,通过电话号码就可以定位到该电话号码相关联的分线盒[3]。由于匹配的都是大客户,这些大客户一般都是位于某商业大楼内或者小区内,因此我们可以近似的认为该分线盒的位置就是对应客户的位置。企业库中客户信息表和资源管理系统中地址库的表结构主要字段如表1-表3。

从表1-表3之中可以看出,客户资料表中的客户信息与地址库中地址唯一关联起来的就是地址。因此可以通过地址将企业库中的客户信息和地址库中的空间信息关联起来形成POI数据并保持数据同步。当企业库中的客户信息变动时,对应的POI属性也会被同步更新;当地址库中的空间信息变动时,对应的POI空间信息也会被更新。

2.2 地址匹配的实现过程

考虑到企业库中的客户信息的安全,在匹配前建立起一张客户信息中间表,把企业库中的可公开客户信息资料复制到该临时表中,同时该中间表中应该加上匹配标志字段MatchFlag,以保证已经匹配上的数据不会再被重复匹配。没有匹配上空间信息的数据会定期从数据库中导出给POI数据采编平台的POI数据维护人员,他们会为这些数据补录上对应的空间位置信息,最后导入到号百GIS库中。

2.2.1 地址提取

地址匹配的第一步就是将客户信息的地址取出来,与地址库中的地址进行匹配。由于这两个数据库通常是由不同的软件厂商进行维护与建立,不同软件厂商的命名规范和系统录入人员的差异可能导致录入的地址存在着差异[3]。其中造成这个差异的一个重要原因就在于地址存在别名和地址中的道路存在别名。为了防止地址名称上的少些差异而导致匹配失败,匹配数据的第二步就是将取出来的地址信息按照地址的行政级别进行拆分。

2.2.2 地址拆分与重组

对于可能存在别名的行政区域或者道路进行拆分和重组从而形成多条匹配条件可有效提高匹配成功率,拆分和重组要遵循行政级别规定,地址拆分中的关键词采用XML进行配置,用户可自行设置其中的关键词。如湖北省武汉市洪山区紫阳东路文化小区18号,按照外部可配置的行政级别和道路的关键词(省、市、区、路、小区等)可以拆分为湖北省,武汉市,洪山区,鲁磨路,沙湾村,18号这6个名称,再按照行政级别和出现顺序依次在地址库中查找对应的别名,例如紫阳东路的别名为张之洞东路,文化小区别名为天华小区。经过重组后就形成了四个新地址:

1)湖北省武汉市洪山区紫阳东路文化小区18号;

2)湖北省武汉市洪山区紫阳东路天华小区18号;

3)湖北省武汉市洪山区张之洞东路文化小区18号;

4)湖北省武汉市洪山区张之洞东路天华小区18号。

显然根据这四个地址条件与一个地址匹配能匹配成功的概率要高的多。

2.2.3 生成POI数据中间表与导入数据

匹配数据的第三步就是将匹配成功的地址数据和客户数据提取出来,按照号百GIS库中的POI数据格式组合成一个POI数据到号百GIS库中的POI数据中间表中,同时修改客户信息中间表中的MatchFlag字段的值为success,将客户资料中间表和号百POI中间表通过UUID这个全局关联字段关联起来,为以后两个数据库中的数据同步建立关联关系。如果匹配失败,则修改MatchFlag字段的值为false(没有匹配的MatchFlag字段的值为NoMatch)。第四步就是将POI数据中间表中的数据导入到POI表中,为了防止在POI数据表中产生重复记录,从而影响前段查询系统的查询精度,在这一过程中会建立空间数据的索引和空间数据的重复记录判断。

2.3 建立POI数据空间索引

空间索引技术是空间数据库和地理信息系统的关键技术,空间索引的有无可能导致空间数据管理效率相差几十甚至上百倍,高效的空间索引方法更是对系统的性能有着决定性的作用[5]。为了提高索引效率,目前人们在索引的领域做了很多工作,提出了许多种较好的索引方法,其中比较有代表性的索引方法包括网格及其改进型索引、四叉树索引、R树及其改进型索引和混合索引等。每一种索引算法都有其自身的特点和适用范围。根据POI数据和号百LBS业务的特点,得知POI数据具有如下特点:

1) POI数据不需要复杂的操作,主要是供前台查询,后台更新主要是插入和更新数据,通常这种操作都是在深夜进行。因此,POI库主要用在查询操作的响应上。

2) 目前号百系统最多只在省一级,因此覆盖的范围不大,同时通过电子地图配置可预知空间目标的覆盖范围。

3) POI数据是点对象

根据以上特点,选择算法原理简单、操作简洁、直接访问、对点数据的索引比较高效的网格索引是适合POI数据的。

首先根据电子地图配置,按照一定半径R将整个覆盖范围划分为M×N个网格。假定地图的配置范围为(Dxmin,Dymin,Dxmax,Dymax),网格划分半径为R, 这样给点一个POI点坐标(X,Y),就可计算出该POI点的对应的网格号nGrid为:

2.4 空间数据重复判断

为了排查空间数据的重复记录,需要对所有的记录进行配对比较。然而通过逐条比较记录进行空间数据的重复性检查是一个很昂贵的操作,特别当数据量很大时, 这一操作将会是无效且不可行的,无论是时间开销还是空间开销。因此, 如何减少记录对之间的比较次数,从而提高检查的效率是必须考虑的问题[6]。如果数据库中有M条数据,需要新导入N条数据,那么至少要比较M×N次。然而空间数据不同于属性数据,它是现实中地理实体的抽象,具有空间位置属性,每个地理实体必然存在于一个地理范围内。考

虑到坐标转化误差和分线盒定位与现实中的实体存在一定偏差的缘故,故可以给要比较的POI实体一个包罗矩形。通常这个包罗矩形的范围是该POI实体的坐标值加减上容许的坐标容差值。由于每个POI已经建立了格网索引,因此,只需要判断与该POI数据落在同一个格网索引内且坐标范围落在此包罗矩形范围内的POI数据,从而大大减少了比较的次数和系统的开销。通常,判断一个POI数据是否相同,主要是根据POI名称、地址和坐标进行判断。根据这三个条件进行判断时,存在以下三种情况:

1) “名称、地址、坐标值完全相同”的数据认为重复数据,执行更新操作

2) “名称相同,地址、坐标值不同(可能该POI已迁址)”或“地址、坐标值相同,名称不同(可能该POI已更名或使用的是别名)”的数据则需要根据一定的模式匹配法则去判断是不是重复数据。这是一项耗时的工作,需要单独进行处理。

3) “名称、地址、坐标值完全不相同”的数据认为是新增数据,执行插入操作

3 结术语

笔者以参与的广西省号码百事通位置服务项目为基础,按照地址匹配方法实现了从企业库和地址库中匹配生成POI数据,并为生成的POI数据建立了空间索引,并自动进行空间数据重复记录判断,构成一种独特的POI数据来源。该方法充分利用了电信公司的已有资源,降低了采购数据的成本和人工维护的成本,在实际应用中取得了良好的经济效益。

参考文献:

[1] 吕志平,赵冬青.位置服务系统(LBS)的构建[J].测绘科学,2005,(4):92-93.

[2] 周泉.浙江电信号码百事通位置服务增值系统设计与实现[D].杭州:浙江大学.2007.

[3] 罗津,俎晓芳.基于MAPGIS的中国电信网络资源管理系统地址库建设[J].中国地质大学学报,2006,(9):729-732.

[4] 胡青,徐建华,王志海.GIS数据库中地址自动匹配方法研究[J].测绘与空间地理信息,2008,(12):49-53

[5] 吴敏君.GIS空间索引技术的研究[D].江苏大学,2006.

[6] 徐杨,冯克忠,马亚明.空间数据重复记录的清理方法研究[J].测绘科学,2008,(11):124-127.

[7] 蒋汉平.基于XML的统一配置管理系统的研究[J].中国科技文献,2008,(1):109-103.

[8] 高建新.GIS空间数据研究[J].测绘科技情报,2006,(1):16-19.

[9] 王育红,陈军. 基于实例的GIS数据库模式匹配方法[J].武汉大学学报,2008,(1):46-51.

上一篇:高职软件技术专业课程体系构建与建设思路 下一篇:高校校园网络通信平台的规划与设计