一种基于全文检索技术交互式电子期刊的设计

时间:2022-07-25 11:58:54

一种基于全文检索技术交互式电子期刊的设计

摘 要:在分析光盘型电子期刊需求和功能基础上,结合《中国农村信用合作》电子期刊的设计,提出借助结构化数据库系统和结构化查询语言实现全文检索和结构查询相结合的交互式电子期刊的设计方法,并利用CDWeb技术实现了B/S结构,用户界面简单易用。该设计方法具有实现简单、通用性强、应用方便等特点,并已实际中得到了验证和应用,可以推广应用于其他电子出版物中。

关键词:全文检索;CDWeb;电子出版物;光盘型电子期刊

中图分类号:TP311.138文献标识码:B

文章编号:1004-373X(2008)08-061-03

Design of Alternant Ejournal Based on Fulltext Search

YU Lijie,GUO Wenrong

(College of Automation,Beijing Union University,Beijing,100101,China)

Abstract:Based on the analysis of requirements and functions of the CDROM electronic journal,consideringthe design of Ejournal of "Rural Credit Cooperative of China".This paper proposes the method to design the alternant Ejournal,it can Structured Query and fulltext search by dint of the Structured database and the Structured Query Language,and implement Broswer/Server model by means of CDWeb technology,the user interface is simple.The model presented is characterized by its simplicity,generality and convenience for users,and it is also verified and applied in practice,it can be widely used in other electronic publications.

Keywords:fulltext search;CDWeb;electronic publication;CDROM Ejournal

1 引 言

电子出版物是一种新兴的信息媒体,将文字、声音、图片、动画等多种媒体与计算机程序融合,以数字信息形式存放在光盘中,并通过多媒体计算机进行阅读,具有信息量大、体积小、重量轻,易于管理、价格低廉等传统印刷型出版物不可比拟的优势。特别是全文检索技术的发展及其在电子出版物中的运用,方便快捷的检索功能使电子出版物的社会影响和社会地位变的越来越重要。

目前光盘型电子出版物一般以专门软件开发设计,灵活性较差。本文在光盘型电子出版物检索功能需求的基础上,提出了一种将非结构化的文本转换为结构化数据库的模型,充分发挥数据库技术管理结构化数据、海量数据的优势和全文检索技术管理及检索非结构化文本数据的优势,并且提出了一种支持超文本信息全文检索的解决方案,在《农村金融杂志》光盘型电子期刊的设计中得到了实际应用和验证。

2 系统设计

2.1 总体结构设计

B/S(Broswer/Server)模式的用户界面完全通过WWW浏览器实现,易学易用、操作友好,适合于图文资料和数据库检索,因此系统采用光盘Web服务结构,采用标准的Web浏览器作为浏览检索结果的操作界面,所有的操作都在同一个窗口中通过超文本链接完成,用户可以方便地信息浏览和导航,使用简单。同时,Web浏览器支持图文混排,支持图像、视频、动画等多媒体信息的直接播出,支持各种排版格式的WORD/PDF文件,能够方便实现原版面显示浏览。

2.2 系统功能设计与工作流程

根据期刊的内容和检索需要,系统功能分为期刊浏览和检索2部分。期刊浏览设计每一期刊物对应一个封面以及若干页目录,可以通过调用某一期刊物,打开封面、目录,进一步浏览全文。检索系统分为全文检索、分类检索、标题检索、关键词检索、作者检索和时间检索等部分,同时还可以进行二次检索。系统的基本功能和工作流程如图1所示。

3 光盘Web服务技术

目前光盘多媒体信息检索系统引入Web技术,主要有3种方式,第一种是光盘Web文件方式,即检索界面和检索方式采用传统的专用程序,检索结果通过浏览器来查看,主要利用Web页面多媒体元素集成的优点,不需要任何Web服务器支持。系统扩充性差,不能发挥Web技术的优势。第二种是Java技术。浏览器嵌入Java小程序实现数据库检索,检索结果以页面方式显示,以充分利用浏览器的Java解释功能。不过操作系统需要支持Java虚拟机,由于Java小程序每次都有下载过程,而且程序运行效率较低,比较适合于数据量不大的数据库检索。一般产品说明书的全文检索多采用这种方式。第三种是光盘Web服务器方式,引入Web服务器功能,采用浏览器/服务器技术,整个系统就是一个Web站点,界面好,功能强,需要TCP/IP协议支持,网络应用实现容易。

本系统采用光盘Web服务器方式,应用DynamicCD软件实现Web服务。DynamicCD可以直接从CD/DVD介质运行提供所有互联网Web服务器的各种功能,不需要安装。支持数据库访问,支持用VBScript和ASP脚本开发的应用程序,可以实时生成HTML页面,还能提供数据加密的功能。

4 数据库设计

数据库中存储的已不再是简单的单一的结构化数据,而是包含了大量的非结构化数据,如: 文本、图形、图像、声音等多媒体数据。对于结构化数据,数据库系统通常采用关键词对主码的倒排文件方式,进行简单的精确的或模糊的检索。

为了帮助用户快速方便查询所需期刊资料,在数据库设计过程中按期刊栏目类型分类,将全文资料按HTML格式保存在Web服务器目录下,在数据库的表中记录文件路径,不同栏目的资料存放在不同的路径下。其数据逻辑结构如图2所示。

URL地址对应Web服务器的文件目录、子目录、文件名,用于超文本全文。目前入库的内容包含了《中国农村信用合作》2005年出版的全部内容。

5 系统功能实现

5.1 全文检索的实现

实现全文检索主要有2种方法[1]:

(1) 直接对文章进行字符匹配的方法,这种方法由于没有建立索引库,因此所占空间较少,但同时正是因为他没有索引库,所以在进行全文匹配时要花费大量的时间;

(2) 全文建立倒排索引库的方法,这种方法可以大大节省检索的时间。但同时,这种方法需要占用一定的存储空间来建立索引库。本文通过将非结构化的超文本文件集转换成结构化数据库,并对数据库中文本记录的特征字段进行标引,形成完整的全文数据库,在此基础上开发相应的检索引擎,实现全文文本查询的目的。

全文检索实现的核心技术是将源文档中所有基本元素的出现信息记录到索引库中。在中文系统中“基本元素”可以是单个汉字字符,也可以是词,这样,就存在2种基本的索引库结构,即基于字表的索引库和基于词表的索引库。字表法是把源文档中每一个字的出现位置信息记录到索引库中,索引库对每个不同的字符都保存一个字表,记录同一个字在文档中的所有出现位置。与此相对应,词表法以能表达一定意义的词为基本独立单位建立索引库。

本文采用字表索引,字表结构见图3。其中字符对应的字表记录了该字符的源文档中的所有出现位置,出现位置通常用字符相对于文档头的偏移字节数表示。

建立字表索引时,需要扫描整个源文档,对所出现的每一个有效字符,计算其在文档中的出现位置并将该位置值加入到对应的字表中。本文使用使用SQL语言设计数据库触发器,在数据存储过程中扫描存入全文表的正文字段,定位字符的位置,写入每个字符的索引信息到索引表。

5.2 数据检索流程

检索过程如图4所示。

(1) 输入检索条件,如“农村金融”;

(2) 应用程序进行分析,整理出全文检索和数据库查询,提交给数据库;

(3) 检索关系型字段,并将结果存入临时表中;

(4) 全文检索,见结果保存在临时表;

(5) 取出两个临时表的内容,生成最后结果集;

(6) 将结果返给用户。

数据库系统同时有3张临时表,用于存储关系检索结果、全文检索结果和最终处理结果。另外系统还支持二次检索的功能。在进行二次检索时,用户的检索条件增加一些额外的信息,例如文档的时间以及作者等。通过二次检索,可以大大减少结果文档的数量,提高检索的精度,同时也节省了用户的查找时间。

5.3 检索结果显示

检索结果采用HTML语言设计页面,应用分级查看的方式显示,在检索结果界面系统列出检索条件、满足检索条件的命中记录总数、当前显示记录数、页面快速定位、排序方式设置以及命中记录的题录列表。如果想改变检索结果的输出格式,可点击通用工具栏中的“参数设置”按钮,自行设定每页输出的记录数和输出格式。检索结果列[LL]表包括题名、作者、期刊名、出版日期、年卷期页码、全文提供方式以及是否包含图片文件等相关信息。点击文献题名链接进入文献简介界面,该界面下列出了文献的详细信息,包括文献标题、作者、摘要、关键词等,点击“全文”链接可浏览原文。

6 结 语

通过结构化数据库系统和结构化查询语言相结合实现了非结构化的超文本数据的检索,发挥了数据库系统管理结构化数据的优势,借助自建的全文索引实现快速的全文检索,使得多媒体的电子期刊系统在检索时响应速度达到秒级,而且查询结果令人满意;并将光盘Web服务技术应用于交互式电子期刊设计中,利用ASP,VBScript和Dreamwear 8在DynamicCD3.0和Accese2003下调试通过,将全文数据库、HTML文档、联机帮助文挡、光盘封面、CDWEB服务器等进行合成,形成一个独立的Web系统,经测试后制成光盘应用。

参 考 文 献

[1]杨宝峰.数据库全文检索技术[J].黑龙江科技信息,2007(5):45.

[2]陈淑燕,瞿高峰.全文检索系统的数据库设计[J].延安大学学报:自然科学版,2001,20(1):3134.

[3]赵泽英,彭志良,王海,等.《贵州农业科学》全文数据库系统的设计与实现[J].贵州农业科学,2005,33(4):7173.

[4]肖文,庞丽萍.电子出版物的全文检索技术研究[J].计算机与数字工程,2002,30(4):4550.

[5]钱爱兵.全文检索算法设计及全文检索系统概述[J].现代图书情报技术,2003(2):4245.

[6]谢鹤宜,梁妙园,冯刚,等.报业图文数据光盘检索系统的设计与实现[J].计算机应用,2000,20(1):5759.

上一篇:基于DS18B20数字温度传感器的设计与实现 下一篇:一种适用于蓝牙的折叠PIFA天线的设计和分析