基于结果模式的Deep Web数据标注方法

时间:2022-09-10 02:57:50

基于结果模式的Deep Web数据标注方法

摘要:全面准确地标注Deep Web查询结果是Deep Web数据集成的关键问题,但现有的Web数据库标注方法还不能较好地解决该问题,为此提出一种基于结果模式的Deep Web数据标注方法。首先通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。通过对4个领域Web数据库进行实验测试,结果表明所提方法能有效地标注Deep Web查询结果数据。

关键词:Deep Web;结果模式;数据标注;数据抽取

中图分类号:TP311 文献标志码:A

Deep Web data annotation method based on result schema

LI Ming,LI Xiu-lan

School of Computer and Communication,Lanzhou University of Technology,Lanzhou Gansu 730050,China

Abstract:Comprehensive and accurate annotation of Deep Web data is the key technology to Deep Web data integration, but the existing methods of Deep Web data annotation are unavailable to effectively solve the problem. Therefore, an approach of Deep Web data annotation based on result schema was proposed. The paper, through analyzing Deep Web result pages and extracting structured data, completed data pretreatment work, then though establishing the correct semantic mapping relation between integrated result schema and staying annotation data, achieved correct annotation of Deep Web data. The experimental results over four real areas show that the proposed method can efficiently annotate Deep Web data.

Key words:Deep Web;result schema;data annotation;data extraction

0 引言

随着Web信息的发展,出现越来越多以Web查询接口形式访问的Deep Web(简称Web数据库或WDB)[1]。为了使抽取的数据具有更高的使用价值,必须为缺少语义的数据项添加正确的标注信息[2]。目前WDB数据标注主要有启发式规则和模式匹配两类。基于启发式规则的标注方法,不仅准确性不高,而且多数启发式规则不具有通用性,因此不能对抽取到的全部数据添加语义注释[3-4]。随后,有研究者提出了模式匹配标注思想,利用预先建立的模式匹配关系,以互补的方式实现WDB数据的标注,但目前很难保证这种模式匹配关系的正确性[5]。文献[6]提出了基于搜索引擎的标注器,通过向搜索引擎提交验证查询,提高了标注的正确率和召回率。文献[7]通过分析接口模式和结果模式信息,并将本体视为特定领域隐含的一个全局模式,利用领域本体作为桥梁,在接口模式和结果模式之间进行匹配,提出了基于本体的WDB数据标注方法,但该方法由于查询接口的多样性使得接口模式匹配难以确定。

由此可知,Deep Web界面种类繁多,数据标注的目的也不相同,不存在一种标注方法能够适应多变的应用环境,且标注的准确性不高。考虑到结果模式是对WDB数据较为准确的解释方式,且WDB结果页面是带模板的结构化HTML文档,本文在假设结果模式已知的基础上,提出了一种基于结果模式的WDB数据标注方法,包括数据预处理和数据标注两个阶段。该方法的优点在于使用结果模式信息总体标注查询结果数据,以此代替使用单独标注结果记录,这样可以提高标注的正确率和召回率,同时降低对WDB数据一致性和完整性的要求。

参考文献:

[1]Bright Planet Corp.The deep Web: Surfacing hidden value [EB/OL].[2010-10-20]./Tutorials/Deep Web/.

[2]刘伟,孟小峰,孟卫一. Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489.

[3]WANG JIYING,LOCHOVSKY F H. Data extraction and label assignment for Web databases[C]// Proceedings of the 12th International World Wide Web Conference. New York: ACM,2003:187-196.

[4]ARLOTTA L,CRESCENZI V,MECCA G,et al. Automatic annotation of data extracted from large Web sites[C]// Proceedings of the 6th International Workshop on Web and Databases. New York: ACM,2003:7-12.

[5]LU YIYAO,HE HAI,ZHAO HONGKUN,et al.Annotating structured data of the deep Web[C]// IEEE 23rd International Conference. New York:IEEE,2007:376-385.

[6]崔晓军,彭智勇,曾承.基于多标注源的Deep Web查询结果自动标注[J].计算机应用,2009,29(1):197-200.

[7]袁柳,李战怀,陈世亮.基于本体的Deep Web数据标注[J].软件学报,2008,19(2):237-245.

[8]聂铁铮,于戈,申德荣,等.基于实例的Deep Web数据源结果模式匹配技术[J].计算机科学与探索,2008,2(6): 601-613.

[9]崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93.

[10]马安香,张斌,高克宁,等.基于结果模式的Deep Web数据抽取[J].计算机研究与发展,2009,46(2): 280-288.

上一篇:改进的基于模函数的数据隐藏方案 下一篇:SOA关键型系统QoS可感知的服务动态实时组合策...