面向主题的Web信息融合模型

时间:2022-10-27 09:32:11

面向主题的Web信息融合模型

[摘要]评述国内外现有Web信息融合的研究成果,分析其中存在的主要问题与不足。针对现有Web信息融合对多维度、多粒度综合查询分析和决策支持不足的问题,分析面向主题的Web信息融合的基本原理,设计面向主题的Web信息融合模型,该模型由Web仓库模型、Web信息融合功能模型和人机交互接口三层组成,并探讨各层工作原理和需要实现的关键技术,最后给出原型系统实现及融合查询示例。

[关键词]面向主题 Web信息融合 模型 技术

[分类号]G354

1、引言

随着Web2.0技术的发展,企业运作日益向Inter-net扩展,企业Web信息的容量和多样性呈爆炸式增长,Web信息日益成为企业决策的重要依据。由于Web信息具有半结构化和非结构化的特征,Web信息的急剧增长在为人们获取所需信息和知识带来更多机遇的同时也带来了更大的挑战。传统搜索引擎的性能已达到极限,其基于关键词匹配排序来检索Web信息的工作原理存在检索结果信息冗余和不精准的问题,无法满足用户基于主题查询的需求,更无法适应企业决策的需要。信息融合借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息。信息融合技术已在生物、经济和军事等领域得到广泛应用。信息融合技术为Web信息处理提供了新的途径,但其研究成果主要针对结构化数据。

现有Web信息融合研究主要集中在多源Web信息检索融合和多Web文档的知识融合两方面,对应于传统信息融合中的数据级融合和特征级融合,不支持信息的多维度和多粒度查询与综合分析,远远不能满足用户从Web有效获取信息进行决策的需要。

2、国内外研究综述

2.1 信息检索融合

信息检索融合将多个搜索组件的文档结果集视为多源证据,综合利用和声效应、撇取效应和/或黑马效应,基于综合评分或排序对多源结果集中的文档进行优化组合,为用户提供更高质量的搜索结果。采用的主要方法包括:

2.1.1 基于统计的方法 分为评分融合和排序融合两类。评分融合算法根据各源(即搜索组件)的性能赋予其权重,用线性组合计算出现在多源结果集的文档的综合评分,将综合评分最高的N个文档返回给用户,如WebFusion算法。基于排序的融合算法对多源结果集按相关度排序后采用轮循的方式从结果集抽取文档返回给用户,如SR融合算法。

2.1.2 基于人工智能的方法 主要是利用人工神经网络等人工智能技术进行文档聚类与模式识别。如文献利用人工神经网络自组织映射(sOM)算法对Web网页进行聚类,识别各类主题之间的关系,从而实现搜索结果的聚合。

2.1.3 基于统计和人工智能的混合方法 基于统计的方法中文档评分函数的形式,文档的内容、链接和结构三方面各自的权重,以及各搜索组件的权重对融合结果有很大影响,通常结合人工智能的方法确定,如文献采用模式识别和启发式学习调整搜索源权重。

2.2 基于多文本的知识融合

基于多文本的知识融合将搜索结果集中的多个文档视为多源证据,主要利用语义本体和自然语言处理技术分析多个文档,利用基于逻辑的规则、基于本体的映射与合并消除其中的知识冗余、知识不完整性和知识冲突,为用户提供具有一致性的知识。根据处理对象的结构化程度可分为半结构化文本的知识融合和非结构化文本的知识融合。

2.2.1 半结构化文本的知识融合 主要对XML格式的信息进行融合。如文献采用语义本体技术构建了面向半结构化信息(XML格式)的知识融合模型,文献提出了一种将融合规则与知识库相结合的对半结构化信息进行融合的方法。

2.2.2 非结构化文本的知识融合 主要对HTML格式和其他文本格式的信息进行融合。大致可分为两类:一是基于Web的本体学习,从网页学习本体概念及概念间关系、获取概念属性和填充本体实例;二是多文档的自动摘要系统,核心问题是摘要旬的抽取与融合。

2.3 面向决策的信息融合

这方面的研究成果很少。中国科学院Yu L等人提出面向Web挖掘的信息融合工具――Web仓库,设计了Web仓库体系结构和EFML处理模型,在信息的融合上采用中介模型。但作者的讨论仅限于Web仓库的概念模型与工作机制,没有深入讨论具体的信息融合模型与方法。

2.4 研究现状总结

总结国内外研究现状,Web信息检索融合的研究成果相对成熟。由于半结构化文本实现模式(Sche-ma)映射相对容易,结合融合规则和知识推理可以获得较好的半结构化文本知识融合效果。较困难的是非结构化文本的知识融合,原因在于机器理解自然语言仍有难度,目前的自动摘要系统会产生较大的信息损失。基于文本的语义标注进行知识融合是解决问题的一种途径。现有Web信息融合算法基本上都是面向Web查询设计的,不支持多粒度与多维度查询,无法满足决策支持的需要。面向主题的Web信息融合模型与技术是亟待研究和解决的问题。

3、面向主题的Web信息融合模型设计

面向决策的信息融合必须支持信息的多粒度与多维度查询和分析,其关键基础是多维信息模型的构建,并通过维度的分类关系(即对维度继续细分得到新的子维度)反映信息的多粒度特征。由于Web信息融合的对象,即Web信息,具有半结构化和非结构化特征,无法直接用于决策支持,其关键是找到一种有效的方法,根据决策主题对相关Web信息进行融合且融合的结果能按多维信息模型进行组织,同时在多维信息模型的基础上可以进一步进行信息的多粒度、多维度融合,以满足决策支持的需要。基于上述原理设计的面向主题的Web信息融合模型如图1所示:

3.1 Web仓库模型

包括Web文档本体模型、Web仓库信息结构模型、基于代数的操作语言三个方面,具体原理如下:

3.1.1 Web文档本体模型建立Web文档本体元模型,设计包括Web文档本体元模型、Web文档概念层、Web文档属性层(包括概要属性、链接与结构属性、内容属性和信任属性)、Web文档实例的四层结构框架模型,为非结构化信息向结构化信息的转换提供语义范式,并利用该本体的元模型机制实现面向不同主题的扩充。

3.1.2 Web仓库信息结构模型 采用多维信息模型组织信息,以本体概念为中心,将本体的属性映射为维度,将本体概念的继承与包含关系映射为维度的分类关系,设计Web模式,构建事实表和多个维表的星型结构。利用语义模型到多维信息模型的映射关系将Web文档本体实例装载入Web仓库。

3.1.3 基于代数的操作语言 利用语义模型到代数系统的映射将基于语义的查询转换为面向关系模型的查询,设计基于代数的操作语言和映射算法将基于语义的查询等操作映射到代数系统的集合操作;设计基

于一阶谓词逻辑的概念和属性约束,用一阶谓词逻辑的子句归结方法判定组合约束的真假实现选择运算。

3.2 Web信息融合功能模型

该模型为具有反馈优化机制的“信息检索融合――属性级融合――概念级融合――决策级融合”的四级融合功能模型,基于Web仓库实现Web信息的多粒度与多维度融合。其基本工作原理是:首先利用面向主题的信息检索融合技术检索Web网页,利用本体学习技术从Web网页生成本体实例,并装载入Web仓库;然后根据用户的查询分析需求,在Web仓库已有多维度信息的基础上,进一步利用本体概念的多粒度关系和本体实例的合并消重算法,在属性层级、概念层级或综合概念与属性层级实现信息的钻取、切片、切块和旋转等操作,实现Web信息在属性级、概念级、综合概念与属性的决策级进行多粒度、多维度融合,以提供满足用户需求的信息融合结果。

3.2.1 功能模型 具有自我优化机制的闭环结构信息融合功能模型,定义各级功能实现的输入输出及各级功能的依赖关系,具有基于评估反馈的自我优化机制,能够分析评估反馈结果与各级融合参数和融合规则的关系,并能根据评估反馈结果实现融合参数和融合规则的自动或半自动调整。

3.2.2 主要算法 主要包括与功能模型相对应的各级融合算法以及本体实例填充算法。①与功能模型相对应的各级融合算法:在已有信息检索融合算法的基础上引入信任评价机制,综合信息源信任度、文本相似度和搜索组件权重三个方面的信息检索融合算法;基于多文档的相同概念相同属性的属性值归并融合算法;基于本体概念上下位关系的属性级多粒度融合算法;基于本体属性合并的概念级多粒度融合算法;基于图理论、本体概念合并、本体属性合并和本体实例消重的决策级融合算法。②本体实例填充算法:把每个文档视为本体实例,重点解决本体实例概念和属性的学习问题,其中概要属性如所在站点、创建时间等概要信息通过URL和HTTP响应信息获取;链接与结构属性通过文本分析器分析获取;信任属性由人工赋初值后基于反馈机制调整;设计基于SOM和层次凝聚的聚类算法获取实例概念及概念间关系,设计基于文档模板匹配和句法模式分析的算法获取内容属性。

3.3 人机交互接口

负责用户与融合功能模型层之间基于语义进行交互,其实现形式是语义浏览器。语义浏览器以图形化的方式显示本体,用户通过对本体进行操作来表明面向主题的查询与分析需求,用户请求被封装成基于语义的形式后提交给融合功能模型层,融合功能模型层返回查询分析结果给用户并且可以让用户追踪到融合的相关原始Web信息。

4、原型系统实现

面向服装行业企业主题,满足服装行业按企业和产品进行综合分析决策的需要,构建Web信息融合原型系统。该系统架构如图2所示:

主要包括数据中心、融合功能、系统管理、应用开发接口和用户接口五个部分,信息源为Web文档。整个系统基于Tomcat+MySQL+Jena实现。Web文档模型本体和服装本体采用Protege工具构建并存储在MySQL数据库中,通过Jena的ARQ查询引擎采用SPARQL查询语言进行查询;融合规则的前项和后项以数据表的形式存储在MySQL数据库中;Web仓库则采用MySQL数据仓库引擎InfoBright实现。Web仓库模式依据服装本体的“概念――属性”关系建立,目前根据“企业”和“产品”概念建立了两个事实表,并分别根据“企业”概念和“产品”概念的属性建立了以事实表为中心的维表,实现了本体实例填充算法和基于概念上下位关系的多粒度融合算法,用户能够根据不同概念和属性粒度实现融合结果的查询。按产品分级(服装产品――男装――休闲衬衫)检索的融合结果如图3所示:

5、结论

信息维度与信息粒度是人类认识世界的基本特征,但现有Web信息融合技术不支持Web信息的多维度和多粒度查询与分析。本文面向充分利用Web信息进行决策支持的需要,设计面向主题的Web信息融合模型,并探讨其基本工作原理和实现技术。该模型由Web仓库模型、Web信息融合功能模型和人机交互接口三个层次构成:Web仓库模型实现对Web信息的多维组织与存储;Web信息融合功能模型实现具有反馈优化机制的“信息检索融合――属性级融合――概念级融合――决策级融合”的四级融合功能;人机交互接口为用户提供基于语义的主题查询与分析界面。面向服装行业企业主题构建了Web信息融合原型系统,融合查询结果初步表明了本文提出原理方法的有效性。今后将在已有模型和算法的基础上深入研究并陆续行文探讨其他融合算法与功能。

上一篇:学生认知方式影响数据库检索策略学习的实验研... 下一篇:利用同义词环改进基于folksonomy的用户分类