都市圈研究基础信息平台及其关键问题

时间:2022-07-20 12:07:39

都市圈研究基础信息平台及其关键问题

[摘要]都市研究是目前区域经济领域研究的一个热点。为了有效支持都市圈研究,提出建设都市圈研究基础信息平台的方案。平台综合利用元数据、XML、定制模板和,NET与MATLAB混合编程等技术实现从数据源抽取数据、表达与存取多维统计数据、动态增添统计指标项、支持在线计算研究成果等功能模块。通过初步试运行,表明该平台能有效地支持都市圈领域的研究和决策。

[关键词]都市圈 元数据 XML 定制模板 混合编程

[分类号]G203

1 引 言

都市圈(Metropolitan Regions)是现代社会经济发展进程中一个具有划时代意义的区域形态,是各国城市化发展进程的必然结果。都市圈的发展与管理已经成为我国经济与社会发展中所面临的重大理论和现实问题。都市圈研究基础信息平台是能便捷、快速和准确地为都市圈研究提供基础数据的信息共享平台,是都市圈研究的信息保障和数据支持。构建都市圈研究基础信息平台具有重大的实用价值和指导意义:一方面能够有力支持都市圈研究工作;另一方面可以有效支撑中央宏观战略调控和圈内城市协调决策,梳理、畅通和完善圈内各行各业信息集散渠道。

从国内各都市圈来看,虽然都不同程度开展了都市圈信息化方面的工作,但截至目前,都还没有建立起关于都市圈研究的基础信息平台,而可借鉴的工作则是信息抽取、数据交换与存取等方法。元数据是提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。亓祥波等提出了采用基于元数据的模板定制技术实现信息抽取的方法,实现了对非结构化文本的信息提取;张富等设计了由元数据和数据构成的系统数据二层结构模式,有效地整合了分布的、异构的、多时段的社会经济统计信息数据。XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。黄红明、孟莉莉等分别提出了以XML文档为中介的对象关系数据的存取模型和异构数据库间联合使用的方案。

虽然以上文献提供了建立数据集成信息平台的参考方案,但均未涉及以信息平台为基础的高级统计分析功能模块,而此功能模块恰恰是本都市圈研究基础信息平台支持在线研究和决策规划所必须具备的,也是本项目的最终目标和意义所在。为此,本文将都市圈专家学者的数据采集与录入、知识模型与构建、成果制作与集成起来,推出服务于都市圈专家的个性化、自助式的研发平台,展现都市圈研究基础信息平台的应用价值潜力。

2 都市圈研究基础信息平台设计

2.1 信息平台的数据需求分析

本信息平台主要有三类用户:都市圈研究人员、政府和企业。经过对他们的系统需求调研分析,本文认为,都市圈研究基础信息平台应该是一个能够概括描述一个都市圈区域地理环境、人口资源以及经济社会发展基本特征的多维的、基于时间序列的数据集合。

根据数据需求与都市圈内外部的数据关联,绘制都市圈数据框架图,如图1所示:

都市圈基础信息包含以下几方面的信息:圈体描述、圈体及圈内城市基本统计信息、圈内城际联系信息、圈际联系信息等几个组成部分。其中,固体的简单描述包括:都市圈名称、包含的城市个数与城市名称等;圈体及圈内城市基本统计信息蕴涵了一个都市圈或城市的大量经济社会统计信息,结合城市统计年鉴的数据目录结构,采取从研究人员观察都市圈的视角,本文设计了基础数据指标类项,具体来说,就是按照都市圈要素层发育演化的先后顺序确定圈体及圈内城市基本统计数据的指标类:自然环境、人口、民生、经济、社会管理、科技、文娱体育;圈内城市之间的联系数据包括都市圈内不同城市之间的交通流、信息流、资金流、贸易流等数据,如铁路里程、公路里程、日往返人数、通信量、投资贸易情况等,反映圈内经济社会联系紧密程度;圈整体与圈外之间的联系数据包括都市圈与外部社会环境之间的交通流、信息流、资金流、贸易流等数据,反映都市圈与外部经济社会的联系紧密程度。

2.2 系统结构设计

根据上述数据需求,并利用元数据和XML,构造系统结构图,如图2所示:

本信息平台可以划分为四个层次:①用户界面:用户可以通过此界面提出自己的查询请求,并得到相应的查询结果;②逻辑控制层:执行查询预处理、查洵翻译和查询结果处理等功能,根据数据字典将对全局数据模式的操作变换成针对具体数据模式的操作,并将查询请求传送到数据查询层,通过此层对终端用户隐蔽了各物理数据库的信息,同时在此层中实现访问存取控制功能;③数据查询层:接受逻辑控制层的查询请求,完成对数据库的查询,然后把查询结果返回到逻辑控制层;④物理数据层:在框架模型中,XML可以充当数据交换中介的角色,实现不同数据库之间的数据转换和抽取,服务器上建立各个源数据库与XML之间类型转换的元数据,通过参照这些元数据,源数据库中的数据首先传送到服务器上转换为XML数据,然后再从XML数据转换为目标数据库的数据,并传送到目标数据库上,从而实现不同数据库之间的数据转换和抽取。

框架中的逻辑控制层和数据查询层置于同一服务器上。由服务器统一对从客户端提交的查询进行分析、分解、翻译,并对从各个数据库节点返回的查询结果进行处理。同时,服务器还负责各个数据库之间数据的转换。由元数据记录全局模式与局部模式之间的转换规则、各个数据库节点的信息、查询翻译规则、结果处理规则以及各数据库间数据类型转换规则等。从而使整个框架能够解决数据库系统的模式转换问题、库之间的类型转换、结构冲突以及实现数据库之间的数据抽取问题。

2.3 总体设计

都市圈研究基础信息平台是一个典型的数据知识平台。其中包括数据库、数据处理功能模块、系统管理、对外接口、网站入口等几个部分。

数据库,即平台信息库:包括都市圈基础数据库、城际联系数据库、统计年鉴库、决策咨询库、论文期刊库、主题信息库、法规政策库、统计月报库、统计季度库、专题服务库、新闻子库、会员信息库等,其中,都市圈基础数据库及其关联数据库是平台信息库的核心内容。数据处理功能模块包括数据查询、统计分析和数据展现。系统管理包括用户注册登录管理、日志管理、系统监控、积分管理等。网站内容包括论文、在线沦坛、信息等。

3 都市圈研究基础信息平台的关键技术

3.1 多维数据的表示

本平台用元数据表示时间维、空间维和指标维。时间元数据包含有时间级别、主时间和子时间。时间级别的值为1、2和3时分别表示描述的时间跨度为年份、季度和月份,主时间描述年份,子时间描述季度或月份,当时间级别为1时,主时间为年份,子时间为空;当时间级别为2时,主时间为年份,子时间为季度;当时间级别为3时,主时间为年份,子时间为月份。对都市圈和圈内城市做统一编码,通过多级编码可表示

都市圈与城市的所属关系,此编码用于表示空间维元数据。本平台的所有统计指标都编入指标元数据库,且按照自然环境、人口、民生、经济、社会管理、科技、文娱体育进行分类。管理员可通过修改指标元数据库来动态增添统计指标项并确定其显示位置。

3.2 源数据库到目标数据库的抽取

都市圈研究与决策所需要使用的数据基本都来源于都市圈内各城市的统计报表,这些报表是由各城市中不同的部门统计并的。报表存储格式有结构化与非结构化两种形式,一般而言,分别对应为各类数据库或文档中的表。对于不同城市的同一统计报表,它们的格式往往是不统一的,而同一城市不同时段的统计报表由于工作习惯和历史原因,其格式相对固定。因此,结合各城市各部门现有的统计报表格式,从这些统计报表中抽取需要的都市圈研究数据,在实际应用中更为可行。

本平台对每个由特定的时间、空间和指标指定的统计数据均设定一个详细的数据源说明,其内容包括:数据源地址、数据源名称、数据库、数据表和字段。数据源地址可以是本地地址或远程地址;数据源名称用于表示该统计指标的出处;后三项分别是指该统计指标所在的数据库、数据表和字段的名称。生成与维护所有数据源说明需要比较大的工作量,为减轻此工作量,本平台针对每一城市设计生成数据源说明模板,当需要生成某城市某一时间段的数据源说明时,可根据模板的框架,一般来说只需批量修改数据源地址和数据库名即可。如数据源的格式有变动,可修改模板使其与数据源保持一致,以方便生成数据源说明。具体实现时,在本平台所使用的数据库SQL Sever 2005上,编写的SQL语句中增加FORXML子句来生成XML文档。在此基础上,使用微软提供的XMLDOM来对XML文档进行操作。

3.3 圈体数据与衍生数据的生成

利用上述元数据可表示城市数据的情况,而圈体数据是圈内城市数据的合成,需经过运算才能得到。基础数据的运算有两种:求和及加权平均。求和用于运算得到总量,加权平均用于求平均值,如:人均CDP。非基础数据的运算有多种,比重、落差、弹性等,用于得到衍生数据。对这些运算进行编码,构成运算元数据库,它们的具体实现是后台程序中的各运算函数。将运算元数据编码存放在都市圈元数据库中相应的数据项位置,在生成圈体数据或衍生数据时,调用运算函数得到统计数据。

虽然可以利用数据源说明和运算元数据动态地得到统计数据,但很明显,这种方式会浪费很多CPU时间,所以本平台将非原始数据也存入目标数据库,用以提高查询速度,而这些数据由管理员以批量方式生成。

3.4 高级统计分析功能的设计与实现

高级统计分析功能是本信息平台所特有的,用以辅助研究和辅助决策规划的平台顶层模块。前文提到的高级统计分析:聚类分析、主成分分析、因子分析及典型相关分析等是平台提供给研究人员的主要功能,这些功能足以支持各种指数的生成。MATLAB具备比较完善的统计分析工具包,且具有良好的可编程性,所以本文采用MATLAB中COM组件的编程,利用COMBuilder生成统计分析COM组件,然后在本文的主开发平台Visual Studio,NET中注册并调用该COM组件,从而实现,NET与MATLAB的混合编程,最终达到了在网站上进行在线高级统计分析的目标。下面以城市服务经济指数为例详细描述统计分析功能的设计与实现。

城市服务经济指数由服务经济的规模、结构、效率和潜力4类共18个指标数据通过因子分析而生成,即18列指标数据经一系列统计分析功能最终生成一列指数。首先,由于18个指标的数据不属于同一量纲,因此在运算之前需要对指标进行无量纲化处理,此处采用了Z-Scores标准化方法,对这些无量纲化数据做因子分析,参数估计采用主成分法,选取前三项因子载荷(前三项所解释的总方差的累计比例大于90%);然后是因子旋转,此处采用四次方最大法(Quartimax)进行旋转,进而采用汤姆森法得到因子得分,最后用原指标的特征值作为权值,将各城市的因子得分加权求和就得到表l中的城市服务经济指数,这些指数虽然有正有负,但它们只是一些具有可比性的数值,仅为排名提供依据。

算法处理过程描述如下:

Stepl. Data Standardization. Input: Raw data, Out-put : Standardized data, Parameters : Standardized method;

Step2. Factor Analysis.

Input: standardized data,Output: Eigenvalues, Eigenveetors, Factor loading, Pa-rameters : Estimation method;

Step3. Factor rotation. Input : Factor loading, Output :Rotated factor loading, Parameters : Rotation method ;

Step4. Factor score calculation. Input: Rotated factorloading, Standardized data, Output : Factor score, Param-eters : Score calculation method;

Step5. Service Economy Indices calculation. Input:Factor score, Eigenvalues, Output: Service Economy In-dices.

上述步骤均可重复处理与调试,以达到满意结果。

其实上述每一步处理过程都对应为一个COM组件的功能调用,这样一连串COM组件的调用就构成了最终指数的生成。需要注意的是每个COM组件的参数中除了输入和输出数据,还包括该处理步骤的方法选择参数,如:标准化方法:最小一最大标准化、z―Scores标准化与小数定标标准化;因子分析参数估计方法:主成分法、主因子法与极大似然法;因子旋转方法:Orthomax,Varimax, Quartimax, Equamax与Parsimax;因子得分计算方法:巴特莱特法与汤姆森法等。显然,研究人员在做统计分析时可以根据实际情况选择不同的方法参数,从而得到满意的结果。

4 结 语

本文提出建立的都市圈研究基础信息平台应用元数据、XML和定制模板完成了从数据源中方便地抽取数据的目标;利用时间、空间、指标元数据和多级编码方法实现了表达与存取多维统计数据的要求;同时,平台能够动态增添统计指标项。最重要的是,运用,NET与MATLAB混合编程技术实现高级统计分析功能。试运行结果表明,都市圈研究基础信息平台逐渐成为支持都市圈研究工作和为各级政府决策提供信息资讯的完备信息平台。

上一篇:从“整理国故”看哈佛燕京学社汉学引得丛刊的... 下一篇:电子办公环境下的业务信息集成管理研究