基于信息可视化的教学资源检索与导航模型构建与验证

时间:2022-10-27 05:20:25

基于信息可视化的教学资源检索与导航模型构建与验证

【摘要】文章分析了信息可视化技术在教学资源检索与导航系统中应用的可行性和表示机制,提出了一种教学资源可视化检索与导航模型,并通过开源软件设计了实验系统加以验证,为学科导航系统的研究和建设提供了一个新的思路。

【关键词】信息可视化;学科导航;教学资源;本体

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2011)02―0121―04

网络信息资源数量庞大、资源丰富,然而其分散、无序、不规范性给读者的利用带来了困难。学科导航作为针对特定学科领域网络资源的深层组织模式,有效解决了网络信息资源检准率低、专指性差、可信度弱等突出问题。信息可视化是将抽象数据用可视的形式表示出来,可用于知识发现、信息检索、文献信息分析等领域,它不仅给信息以形象的表示,为人们提供直观的结果以便观察,而且能够揭示信息之间的关联,挖掘隐含的模式和结构,让用户有效地利用信息和发现知识。本文尝试将信息可视化技术应用于学科导航系统,在分析了教学资源检索与导航可视化的可行性和表示机制之后,提出了一种教学资源可视化检索与导航模型,最后利用开源软件进行了实验验证。

一 可行性分析

尽管近年来信息可视化技术已经广泛推广应用,然而在教学资源导航系统的设计方面还未有相关的应用系统出现。如CALIS重点学科网络导航库在检索结果的显示方面也只有按题名排序和按访问次数两种方式,无益于帮助用户在第一时间得到最相关的检索结果[1]。笔者曾提出一种基于本体的智能学科导航系统设计方案,通过构建领域本体,以Nutch为采集平台、采用JSP+MYSQL为开发平台,设计并初步实现了一个具备语义检索和导航功能的教学资源检索/导航平台[2],但该试验系统在检索结果的展示方面也不尽如人意。

从技术的角度来看,为网络信息资源提供检索与导航的学科导航系统存在着信息可视化操作的诸多可行性。首先,面向本体知识库的可视化检索研究已经引起了国内外学者的关注,近年来在可视化理论和图形布局算法等方面取得了很大的进展,同时本体可视化检索的实现方法和关键技术也在不断的发展之中;第二,基于本体的语义标引技术的研究使得语义标引算法有了较大的进步,更注重从概念层面和属性层面来区分资源,为语义检索创造条件,提高了检索效果。第三,网络开发技术中的RIA(Rich Internet Application,富互联网应用)发展日趋成熟,出现了诸如Flex、Ajax、Silverlight、JavaFX等RIA方案和开源软件,其所具备的交互性和开放性使得信息可视化在学科导航系统上的实现成为现实。

二 教学资源信息检索可视化的表示机制

1 基于本体的知识检索呈现技术

在信息检索可视化过程中,需要将不可见的语义关系转换成图形,在一个二维或三维的可视化空间中显示出来[3]。基于本体的知识检索呈现是指通过一定的知识表示技术,将领域知识按照一定方式,清晰有序地在一个统一的界面上显示出来,供检索者方便地查询与获取知识[4]。常见的知识检索呈现方式主要有概念图(concept map)、思维导图(mind map)、认知地图(cognitive map)、语义网络(semantic network)、思维地图(thinking map)等,而这些知识表示技术包括了模式、模型、图形和图像等方式。

目前有许多开源的本体应用可视化工具和技术来表达本体,如基于Protégé的TGViz、jambalaya、OntoViz和独立于本体领域的通用可视化工具Piccolo、Processing、VTK、JUNG等[5]。其中独立于本题领域的通用可视化工具拥有更强大的可视化功能和扩展接口,较容易应用到本体可视化开发中去。

2 教学资源信息可视化显示技术

可视化显示技术主要用于把经过处理过的信息在计算机上以图形的形式显示出来,最基本的可视化显示技术包括Focus+Context(焦点加上下文技术)、Tree-map(树形图)、Cone Tree(锥形树)、Hyperbolic Tree(双曲线树)等几种[6]。

(1)焦点加上下文技术可以将一个信息集合的特定部分的细节视图,通过某种方式和该信息集合的总体结构视图混合在一起,也可以认为是在显示一个大的信息空间的同时,其中的一部分以更细节的方式显示。它的目的是放大聚焦节点,减小周围环境影响“聚焦”注意力。

(2)树形图可显示数据层次里面的所有节点,还能在同一视图显示单个节点的信息。树形图中图形大小表示了它在整个层次中的相对大小,其他属性由颜色等方式表示。

(3)锥形树是一个半透明的锥形三维空间图,为了让用户可以观察到所有的数据,根结点即能放置在锥形树的顶端,又可放置在空间(凸轮树)最左端,子节点均匀地分布在根结点的下方或者右侧的锥形延展部分。

(4)双曲线树技术将更多的可视化空间用于显示层次结构中当前被关注的部分,同时又能把整个层次结构显示出来。它通过一种规范的算法将层次关系显示在一个双曲平面上,然后将这个双曲平面映射到显示区域。

除了这些基本技术之外,还有如文档透镜、透视墙、场景图等其他的可视化显示技术。需要说明的是,这些显示技术都有优缺点,在信息检索可视化时需要根据实际情况合理选择一种或者几种技术组合应用。

三 基于信息可视化的教学信息检索与导航模型

基于信息可视化的教学资源信息检索与导航模型根据教学资源的特点和学科导航系统的功能要求分为教学信息采集模块、教学信息加工标引模块、教学信息分类保存模块与教学信息检索与导航四个模块,如图1所示。

1 教学信息采集模块

教学资源导航与检索系统实现的第一步就是如何将Web上的教学资源信息内容存储到本地,继而为后续的信息抽取、链接分析、可视化检索等工作提供重要的基础数据。然而网络资源数量庞大,资源类型复杂多样,人工采集的方式已不能满足导航资源更新维护的需要。在常见的几种开源采集工具中,Nutch具有突出的功能特性和性能指标,并提供了一个完整的搜索引擎框架。然而由于其采用了命令行的操作方式,不便操作,对此可开发图形化界面来控制配置文件改善操作。

2 教学信息的工标引模块

Nutch除能够抓取网页外,能具有解析网页、建立链接数据库、对网页进行评分、建立Lucene索引和提供检索界面等丰富的功能[7]。通过分析,Nutch采集的物理文件分别存储在db目录下的webdb、segments和index三个文件夹中,其中segment内存储的是爬虫在单独一次抓取循环中抓到的网页以及这些网页的索引,可编程分析该目录下的文件并将分析后得到的Version、url、base、contentType、metadata和Content等字段存入数据库中,用于下一步的标引。

将笔者构建的一个关于图书馆学的简单领域本体存储于数据库中用于本体语义标引的本体解析。在分析segment文件的同时,借助开源软件Html Parser对网页进行去噪处理和提取出该Web页面的核心词汇集,接着以该核心词汇集为输入,利用HP实验室的Jena引擎提供的本体接口来解析数据库中的本体,完成核心词汇集与本体概念的映射,获取概念对应的属性,填充核心词汇集的属性值,生成Web页面的语义向量,存储到数据库中。至此通过文档处理、本体解析和向量抽取三步完成教学信息的加工标引[8]。

3 教学信息分类保存模块

教学信息的分类保存过程相对比较容易实现,一方面,Nutch在抓取过程中存储了所有网页及这些网页之间的索引结构和链接结构信息。另一方面,利用程序分析了这些网页信息并将分析后的内容和标引信息存储到数据库中。笔者通过人工的方式来实现信息分类,按照领域本体结构建立一个采集目录,在采集前预先设定好该批次采集的信息类别。

4 教学信息检索与导航模块

检索与导航是将查询到的相关Web页面反馈给用户,并在信息检索和导航界面可视化为Flash的过程。运用概念图和焦点加上下文技术来实现,涉及到具体开发时应用prefuse.flare开源Flex插件来实现检索和导航结果的可视化展示。

在检索过程中,对用户检索请求进行分词、关键词提取并规范成本体查询语言等处理后,通过查询语句来检索Oracle数据库,将查询到的结果依据图书馆学的领域本体进行相关推理,实现语义扩展查询。在导航过程中,根据用于请求的领域本体概念或属性来查询该概念或属性所标引的Web页面,实现可视化导航。

四 模型的系统验证

1 开发环境及实现工具

采集引擎的配置条件为:JDK1.5+Tomcat5.5+Nutch 1.0。

开发运行环境为:Tomcat5.5+JDK1.5+Java+Oracle9。

本体构建工具为:Protégé4.1。

2 基于本体的教学信息的自动加工标引

自动加工标引流程图如图2所示:

(1) 首先分析segment文件得到单个Web页面的版本、链接、元数据、内容等信息后存入数据库;再对内容进行去噪处理得到纯文本;为了简化验证过程,仅对title内容进行处理,得到页面核心词汇集。

(2) 将构建的图书馆学领域本体存储到Oracle数据库中;调用Jena2.6版本引擎提供的Oracle本体存储接口来解析图书馆学领域本体,将解析出来的本体概念与上一步得到的Web页面核心词汇集进行映射,获取本体概念所对应的属性,并作为Web页面核心词汇集的属性保存;进一步生成该Web页面的语义向量,存入Oracle数据库。

3 可视化检索与导航的实现

可视化检索与导航的流程如图3所示:

(1) 运行系统,用户可选择导航或检索两种操作。

(2) 系统判定用户的请求,如果是检索对输入的检索语句则使用中文分词工具包IKAnalyzer进行分词处理,对得到的关键词检索Oracle数据库中的Web信息和语义向量信息。进而检索本体数据库即依据图书馆学领域本体进行相关推理,实现语义扩展查询,最后用prefuse.flare中的Radial布局图实现了结果的可视化展示并反馈给用户。

(3)导航流程与检索部分相似,不同的是用户首先得到一个可视化的本体类目结构,点击类目上的节点后,系统得到该节点(概念或属性)所对应的Web信息和对应的语义向量。下图4是用“数字化参考咨询”检索后展示出来的可视化结果。

五 结语

本文探索和构建了基于语义的教学资源发现、智能检索和兼容互换模型及其可视化表现机制,在传统学科导航系统的基础上引入了领域本体和信息可视化机制,并开发与构建了实验系统加以验证。本实验系统的目的只是简单验证可视化模型的可行性,同时由于条件限制在Nutch采集结果的分析过程中只分析了网页标题,而许多网页标题并不完全与内容匹配导致了Web页面核心词汇集不准确。未来可在此基础上,对采集系统进行 Plugin插件开发并对搜索结果的层次化自动聚类等相关技术[9]进行深入研究,制作专题网页资源采集服务系统。

参考文献

[1] 夏翠军. CALIS重点学科网络资源导航库的使用情况分析.图书情报工作[J],2009,(3):75-78.

[2] 朱毅华,郭卫兵.基于本体的教学资源检索、导航平台的设计与实现.中国教育信息化[J],2008,(11):68-71.

[3] 张学福.信息检索可视化基本问题研究.中国图书馆学报[J],2006,(3):37-40.

[4] 王兰成,曾琼.基于本体的知识检索模型及呈现技术研究.图书情报工作[J],2009,(3):98-102.

[5] 董慧,王超.本体应用可视化研究.情报理论与实践[J],2009,(12):116-120.

[6] 陈艳.信息检索可视化技术.情报理论与实践[J],2006,(5):618-621.

[7] 徐健,张智雄.基于Nutch的Web网站定向采集系统.现代图书情报技术[J],2009,(4):1-6.

[8] 张功杰,黄穗. 基于本体的语义标引研究与实现[J].计算机工程与设计,2008,(4):2078-2080.

[9] 常智荣,马自卫,李高虎.基于Nutch的专题网页资源采集服务系统的设计与实现. 现代图书情报技术[J].2010,(3):19-26.

Construction and Verification of Teaching Resources Search and Navigation Model Based on Information Visualization

GUO Wei-bing1 ZHU Yi-hua2

(1.Library, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094,China; 2. College of Information Science and Technology, Nanjing Agricultural University, Nanjing, Jiangsu 210095, China)

Abstract:This paper analyzes the feasibility and representation mechanisms of using information visualization technology in the teaching resources searching and navigation systems. Then presents a visual teaching resource search and navigation model and verify it by building a experimental system developed with open source software. It’s a new thinking of researching and building subject navigation system.

Keywords:information visualization; subject navigation; teaching resources; ontology

本文为南京农业大学教育教学改革研究项目 “基于信息可视化的教学资源检索与导航研究”(编号:2009Y033)的研究成果。

收稿日期:2010年11月19日

上一篇:基于Web的学位论文管理系统研究 下一篇:基于Web2.0的自主学习平台研究与设计