基于政务网的搜索引擎及信息检索系统设计

时间:2022-09-24 08:23:43

基于政务网的搜索引擎及信息检索系统设计

摘 要: 对于政务网产生的政务信息越来越多,信息组织分散,信息结构多样的现实问题,如何统一并有效地管理是新一代搜索引擎及信息检索系统开发需要解决的问题。文章探讨了政务网信息采集和检索业务的应用目标,分析了系统的应用需求,从设计和实现的角度阐述了系统的开发思路、总体框架和主要功能。

关键词: 政务网; 搜索引擎; 信息检索系统; 政务信息

中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2013)05-62-04

Design of searching engines and information retrieval system based on government network

Huang Xiaoqin

(Economic information center in Zhejiang Province, Hangzhou, Zhejiang 310006, China)

Abstract: Since information generated by government network has increased greatly, decentralized, and diversified, it is a problem how to unify and manage them effectively in the development of a new generation of search engines and information retrieval system. Application goals of government in information collection and information retrieval system are discussed. The system's application requirements are analyzed. The developing ideas, the general framework and main functions of the system are introduced from the perspective of design and implementation.

Key words: chief network; search engine; information retrieval system; government information

0 引言

近年来,随着各级政府机关网站内容的不断丰富,网页数量也呈几何式增加,由此也带来了一个结果:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致政府机关和社会公众用户在相关的政府门户网站上不知道如何快速找到自己需要或最感兴趣的内容,查询所需要的信息变得越来越困难,网络信息利用率低。鉴于此,在政务网建设搜索引擎系统,采集、处理、存储政务网上网页信息,建立网页文件信息资源库,向政府机关和社会公众提供查询服务,从而实现信息整合和有效利用,就显得比较重要和必要。

1 基于政务网的搜索引擎及信息检索系统应用目标

⑴ 网络信息搜索采集智能化。通过采用智能化的搜索引擎技术及开发定制的产品,可以方便地实现对信息网上各类信息资源的搜索、自动跟踪与采集,自动化程度高。

⑵ 信息分析与处理的自动化。对于采集下来的Web页面及其他格式的信息资源,系统可以通过自动分类、聚类、自动摘要、信息自动抽取及自动标引等应用技术,达到对所采集的信息内容进行自动化的分析与挖掘。

⑶ 海量信息内容的统一管理。通过数据库仓库系统,实现对采集入库的各类格式的信息资源进行集中统一管理。

⑷ 灵活高效的查询手段。对于采集与分析的各类Web页面库、Web页面信息索引数据库等数据库,可以方便地挂接到网站上,提供灵活多样的查询方式,满足各层次用户的实际查询的需要。

2 基于政务网的搜索引擎及信息检索系统分析

2.1 应用需求及分析

⑴ 政务网信息资源组织和利用。通过系统的建设,在已有信息资源的基础上进一步拓宽信息资源渠道,建立完整规范的系统信息服务的信息资源组织体系,对资源的组织进行规范和整合,实现对信息服务系统资源的有效分类和管理利用。

⑵ 政务网信息的自动采集。系统尽量依靠对口的业务信息组织人员负责信息的组织和提供维护,从技术上尽量提供方便的手段;尽量加强对已有系统中资源的利用,技术上采取自动的数据采集。通过让业务人员而不是技术人员直接完成信息的组织提供业务系统信息的自动采集,保证资源组织的效率和及时的更新。

⑶ 政务网信息资源个性化检索服务。对资源进行有针对性的整合与配置,在此基础上提供更好的个性化检索服务。

⑷ 业务系统应用接口。结合典型业务系统数据交换体系建设,实现在分布式环境下各单位信息的自动采集,在进一步充实信息资源的同时大大提高信息提供的效率,保证信息的及时更新。

2.2 业务功能需求分析

该系统应适应政务网信息安全系统和数据交换系统环境,为便于系统扩展和获得较高的性价比,我们考虑采用分层功能结构。

⑴ 信息搜索采集

系统要能够全面完整地搜索采集各级政府机关网页信息,随时搜索采集重点网站和网页的动态信息;可以根据授权搜索采集政务网页信息,并提供方便的权限设置功能;可以按定义自动搜索采集政务网页信息,可以记录网页中的单位名称、系统名称等标识网页属性的信息;能够提供超链拓扑搜索,自动地搜索整个政务网中的超链信息;提供政务网信息更新搜索;支持用户自行制定对网页信息采集和更新的搜索方案和策略,包括设置搜索的范围、内容、网页文件类型等;支持对框架(Frame)网页结构的搜索。

⑵ 信息分析

信息分析作为政府信息网搜索引擎及信息检索系统分析挖掘的工具,主要提供对采集的Web信息内容进行分析与挖掘等信息二次利用,提高信息的利用效率。

系统应提供自动分类、自动聚类功能,并提供方便的人工维护手段,可以依据政府信息类别及用户提出的其他标准和参考信息,对搜集到的政务网上全部网页信息自动分类,具有多类内容的网页应分别归入相应类中,并显现归属类的网页内容。

⑶ 数据库管理

数据库管理作为下载网页内容、网页超链拓扑及用户的客户端内容管理平台,向请求服务系统提供各类应用资源库。资源库类型如图1所示。

[数据库管理][聚类信息数据库][主题词词库 ][同义词词库 ][近义词词库 ][热点词词库 ][限制词词库 ]

图1 数据库分类图

另外,通过数据库镜像功能,从提供镜像服务的其他搜索引擎服务网站下载数据,复制数据库。系统提供完备的数据库管理工具,便于维护数据库,控制数据库的安全性、完整性、一致性;可以便捷地建立新的数据库。

⑷ 信息服务

系统提供对网页内容较全面的查询服务,包括网页中文本的索引与摘要信息、全文信息、应用系统定位信息和政务网上的其他信息;网页间超链拓扑结构信息;信息查询可以提供统一格式的查询页面,可以将采集的网页转换为格式统一的查询页面供查询用户浏览,查询页面应具有特色,方便实用。

查询系统提供多种查询方式,包括:类目查询、查询词查询、任务定制查询、栏目定制查询等,并可以将多种查询方式结合使用。

信息查询系统提供多种查询方法,包括模糊查询、精确查询、外部特征与正文内容的各种逻辑组合查询、全方位的位置查询、二次查询、渐进查询等。

⑸ 系统管理

系统管理模块作为整个系统的管理工具,应提供实用的管理控制功能,保证用户可以协调并控制系统运行,进行参数设置,具有完整的容错、备份、崩溃修复机制,便于用户对镜像站下载、复制数据库。系统具备用户权限管理功能,提供实用方便的用户管理界面和查询界面的维护、修改工具。便于用户管理人员查询网页信息和管理系统。

系统应提供方便的查询页面维护手段,以便用户管理人员自行对页面增、删、改。信息查询系统可以方便地链接到各级政府机关网站。

系统应提供系统日志及管理日志功能。

⑹ 应用接口

系统应具有良好的开放性,并能提供相应的开发接口(包括COM、JavaBeans、C/C++等开发接口),能够检索、处理各种关系型数据库、非结构化数据库中的内容,提供与请求服务系统和其他应用软件的接口,便于输出和利用搜索引擎所收集的信息。

2.3 系统性能需求分析

⑴ 查询性能指标

系统的查询速度在百G级以下数据集合上达到亚秒级,对于查询请求,应在秒级显示查询结果,并且不随文件数量增大而降低效率。搜索引擎应具有较强的并发访问性能,近期应支持500个用户同时查询的要求,查询速度小于1秒。

系统的查准率应达到90%以上,查全率应达到99%以上。

⑵ 采集更新性能指标

系统按照授权采集政务网上的所有网页信息,应具有较高的网页信息更新速度,在传输速率10Mb以上的网络环境中,网页信息可以每日更新,在传输速率10MB以下的网络环境中,网页信息可以每周更新,任务定制查询中所需网页信息可随时更新。数据索引更新时间平均小于0.02秒/记录(每条记录4Kb)。

⑶ 网页文件数据库性能指标

系统采用的网页文件数据库满足以下性能指标要求:

① 支持跨平台的应用,支持各种主流的操作系统;

② 支持数据库一对多的单向镜像;

③ 多线程设计,支持SMP体系结构,支持大量并发用户访问,峰值访问量满足1000人/秒。

3 基于政务网的搜索引擎及信息检索管理系统设计

3.1 总体架构

整个系统采用三层体系框架,①门户接口层:检索与服务子系统、管理子系统、资源注册子系统和交换接口子系统;②资源库子系统:网页数据库、文本数据库和词典库;③核心功能层:搜索采集子系统、信息分析子系统、索引子系统和统计分析子系统。

利用Web Service技术实现客户端和数据库服务器之间的数据交互,以达到门户接口层和核心功能层的分离。

整个系统总体框架结构如图2所示。

[技术标准规范] [网页数据库] [文本数据库] [词典库][资源库子系统][核心功能层][搜索采集

子系统][信息分析

子系统][索引

子系统][统计分析

子系统] [门户接口层][检索与服务

子系统][管理

子系统][资源注册

子系统][交换接口

子系统] [安全保障体系]

图2 系统框架结构图

3.2 网络拓扑结构

基于以上的分布式搜索引擎设计及项目的性能要求,建议采用以下的网络拓扑结构,如图3所示。

图3 网络拓扑结构图

两台数据库服务器为一组,互为镜像、动态切换,一组数据库服务器连接两台采集服务器。

在系统运行初期,建议部署两组数据库服务器,共4台数据库服务器,配4台采集服务器。今后随着网页数据库内容的增长,可再以组为单位扩充数据库服务器。

Web服务器和应用服务器可配置在一台PC服务器上,安装搜索引擎门户软件。

另外再部署一台控制服务器,用以安装分布式搜索引擎的并发控制中心以及报错系统日志。

3.3 功能模块

[搜索采集 ][信息分析 ][交换与接口][用户权限][检索与服务][系统控制 ][统计分析 ][索引资源库][系统功能]

图4 系统功能模块图

⑴ 搜索采集子系统

网站搜索采集是搜索引擎系统的第一个关键性环节。只有首先从浩如烟海的网页中采集到与目标主题相关的大批量的数据,并且尽量做到完整与准确,才能保证后续对数据进行分析、分类、加工等处理的有效性和准确性。

⑵ 信息分析子系统

采集子系统已经生成了原始网页数据集,信息分析子系统是在此基础之上对网页内容进行分析处理,生成网页元数据信息、网页文本摘要、内容分类、关键词等信息,以备后续的索引和利用。

信息分析子系统根据功能的不同又可以分为内容提取模块、分类和聚类模块、文本过滤模块、词典自动生成模块。

⑶ 交换与接口子系统

经过分析的数据,在检索门户上提供查询请求的WebService服务,以利于其他应用系统查询和获取搜索引擎资源库中的信息,然后,通过数据交换区进行信息安全交换,最终进入数据库服务器。安全交换如图5所示。

图5 安全交换示意图

⑷ 检索与服务子系统

支持多种检索运算符;支持包括外部特征与正文内容的各种逻辑组合检索、多字段复合检索、距离检索、二次检索、历史检索、相关词扩展检索、分类导航检索、西文(字符)字段支持前方一致检索、短语与句子检索功能等。系统提供基于知识或同义词典的扩展检索功能,能够满足特殊应用领域的高查准率和高查全率的要求,词典可维护。支持对检索结果的各种排序;对检索结果可按与检索表达式的相关性和重要性程度排序;基于字段的排序;后进先出的快速排序;系统和主流的关系型数据库管理系统无缝集成;支持对关系型数据库的文本数据的检索能力。

⑸ 用户权限子系统

系统将用户分为系统管理员、搜索采集员、数据库管理员、普通查询用户四个等级的用户。用户根据自己的权限,各司其职,完成相应的系统维护任务。

表1 用户角色和操作关系表

[用户\&操作\&系统管理员\&管理用户、分配管理权限、设置系统运行参数、管理系统日志\&搜索采集员\&定义和配置采集域、监控采集程序运行、设置采集策略\&数据管理员\&管理和维护资源库,分配资源库权限,备份、复制数据库\&普通查询用户\&根据授权访问和查询资源库,获得个性化服务\&]

⑹ 系统控制子系统

控制子系统实现对分布式搜索引擎系统的并发调度。

分布式搜索引擎是根据地域、分类、IP地址及其他的划分标准将全网分成若干个自治区域,在每个自治区域内设立一个检索服务器,而每个检索服务器由信息搜索机器人、网页索引数据库和检索三部分组成。

⑺ 索引子系统与资源库

经过信息分析子系统生成的数据,由索引子系统加载入网页资源库中。网页资源库包括网页数据库、网页文本库和词典库三类。具体流程如图6所示。

[索引数据缓存区] [检索门户][检索] [检索库][数据采集

数据分析][索引模块] [索引库][切换控制

模块]

图6 索引子系统于资源库流程图

⑻ 统计分析子系统

统计管理是在日志的基础上,提供用户操作统计、资源分布统计、网站访问统计等几种统计功能。

统计项目有:信息资源量;统计按地域、按单位的信息资源量及分布状况;统计网站网页数量;统计查询词频、分类查询频度、栏目查询频度;统计用户的访问频度和分布状况。

4 结束语

本文探索研究了政务网搜索引擎及信息检索系统,实现了政务网上的网页文件信息的抓取,通过加工整合,构建起政务网网页信息资源库,实现对网页信息二次开发利用,为政务网内各级机关提供快速、简便地查找信息提供了参考,为推进政务网业务应用建设积累经验、创造条件。另外,随着信息时代的到来,政务网上图片,音、视频等多媒体信息应用越来越广泛,如何做好采集后多媒体信息的检索和关联利用是下一步关注的方向和研究的重点。

参考文献:

[1] GB/T 9385-1988.计算机软件需求编制指南,2012.

[2] 国务院信息化办公室和国家标准化管理委员会.电子政务标

准化指南(第二版),2010.

[3] 穆勇,彭凯.政务信息资源目录体系建设理论与实践[M].北京大学出

版社,2009.

[4] 基于XML的电子文件格式规范.

[5] 汪风兰.软件体系结构初探[J].计算机时代,2011.8.

上一篇:爱学生,别打 下一篇:潜移默化在德育工作中的重要作用