基于XML和本体的城市住宅信息集成研究

时间:2022-10-10 03:04:59

基于XML和本体的城市住宅信息集成研究

摘要:针对目前城市住宅信息现状,提出了一种基于XML和本体的城市住宅信息集成架构。通过本体全局映射表和局部映射表解决了XML集成模式在语义上的不足。该方法增强了城市住宅信息系统建设的可维护性和可扩展性。

关键词:XML;本体;城市住宅信息系统;数据集成

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)35-8134-02

随着社会经济及房地产业的不断发展,Web住宅信息已经成为城市房地产信息的一个主要来源,其的主要途径有政府职能部门的官方网站、大型门户网站、行业网站、社交平台等。因此,Web住宅信息具有异构性强、数据量大、数据源结构变化频繁等特点。要从Web住宅信息中获得真正所需的数据,实现异构数据集成,不但要解决数据结构不一致问题还需解决数据语义异构问题。

1 XML与数据集成

XML作为规则和准则的集合,可以通过无格式文本来描述结构化信息。对Web异构数据集成来说,XML技术具有可扩展性、文档三要素独立、跨平台性、语法严格、易于等众多优点[1]。选择XML作为数据集成的描述语言,屏蔽了底层数据源的异构性,为上层应用提供了标准的信息交换模板,构建了易于扩展、描述能力强的数据集成模型。

2 本体与数据集成

虽然XML作为公共语法规范在异构信息交换方面大致解决了数据结构和语法的问题,但由于其在语义表述方面的缺陷,使得集成中语义冲突不可避免。本体是共享概念模型的形式化规范说明 [2],能够在语义和知识层次上描述行业领域模型,可以作为语义层次上WEB行业信息共享和交换的基础。本体对领域知识的精确描述使得概念统一,本体间的联系构建了全局本体的虚拟视图,以此为基础对WEB行业信息进行集成、统一、快捷的信息查询和数据挖掘服务[3]。

3 基于XML和本体的城市住宅信息集成框架

基于XML和本体的城市住宅信息集成框架在Mediator/Wrapper方式的基础上,引入本体利用其语义描述上的优势,集成了各类Web城市住宅信息源,解决了XML模式在语义集成上的不足。具体如图1所示。

城市住宅信息包含多种类型的数据源,例如关系型数据库、HTML网页、 XML数据源、txt文件等结构化、半结构化和非结构化数据。

包装器的主要作用是数据抽取。根据各类数据源的特点建立对应的包装器,抽取相应的住宅数据并转化成统一的XML形式,为城市住宅信息查询提供标准的XML接口。具体地,对于关系型数据库,其对应的XML数据库编程接口可以用来构成对应的包装器,调用相关API查询关系数据库如同操作同一个XML文档。建立Web数据源对应包装器的方法可以参考文献[4]。通过上述方法开发者只用针对于统一的XML形式开发应用即可。

中介层的主要作用是接受来自应用层用户的查询要求,通过中间件和本体管理器的合作,将查询要求依据语义解析分解成对某些标准XML接口的子查询,最后组装子查询的结果并按用户要求交由应用层。中介层由本体管理器和中间件构成。

本体管理器主要由全局本体、局部本体、公共词汇库、全局映射表、局部映射表、推理机等构成,主要的作用是存储和管理本体,进行语义推理以及解决集成过程中产生的语义冲突。在城市住宅信息集成中,将政府官方网站,门户网站的房产信息以及专业公司的周报月报等统一抽取的XML Schema通过其到OWL DL的映射算法构建本体类的相关信息,然后将各个XML Schema模式映射成本体实例,即局部本体。借助本体编辑工具等,可以将局部本体合成全局本体,建立城市住宅信息公共词汇库,阐述房地产领域的基本概念之间的关系,解决局部本体之间的语义冲突。局部映射表存储各类住宅信息源和对应局部本体之间的映射关系,全局映射表存储全局本体和局部本体之间的映射关系。通过映射表建立了数据源间的统一语义,完成了城市住宅异构信息的逻辑统一。

中间件的工作流程如下:查询生成器接收用户于应用层提交的查询请求,初步检验后,转化成推理机可处理的语句,将其传递给推理机。推理机依据全局本体并参照领域共享词汇进行语义推理扩展该查询,结果传递给查询分解器。查询分析器检索全局映射表,分解原查询为对各局部本体的子查询,并将此结果传递给查询转换器。查询转换器检索局部映射表,将这些子查询转化为Xquery查询语句。由于各异构数据源最终都转化成XML数据,XQuery可以直接进行查询,结果处理器将整合各个数据源的XQuery查询结果,进行汇总、排序、去重、语义转化等操作,以统一的XML格式返回给用户。

应用层给用户提供统一的查询界面,将用户的具体操作转换成相应的查询要求,并进行基础的业务性校验,对于合理的请求发送到中介层,不合理的给出错误信息。另外,在中介层对请求进行相应的处理后,将结果以用户要求的显示格式展示给用户。

4 总结

本文讨论的基于XML和本体的城市住宅信息集成架构在城市信息资源开发与综合应用系统(CRIDAS)中已经得到初步的应用,并在对于北方多个城市的房产信息的抓取与集成过程中获得了较为满意的结果。

参考文献:

[1] 何蕾. Web信息资源整合系统的技术研究及实现[J].计算机工程与应用,2004(10).

[2] Domingne J, Motta E. Coreho O.Knowledge Modelling in Web Onto and CML: A User Guide, 1999 .

[3] 姜卜元.基于Web Service的自适应异构数据集成系统的研究[D].大连海事大学,2007.

[4] 胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004(10).

上一篇:浅谈数字式高压线路保护的设计 下一篇:电力系统工程中IT运行自动化的技术应用