基于属性相关度的Web数据库大小估算方法

时间：2022-08-06 08:48:35

摘要：互联网技术的普及应用使得网络经济成为国民经济中新兴经济增长点，同时现有WEB数据库中超过75%的WEB数据库存储了结构优化信息。因此，WEB数据库逐渐成为时下人们获取结构优化信息的重要途径。为了能够提高WEB数据库利用效率，本文针对WEB数据库结构优化信息特点，采用基于属性相关度的方法来对数据库大小进行估算，以明确该数据库中记录信息总数，更好地服务于社会。

关键词：属性相关度；WEB数据库；估算方法；结构优化信息；互联网技术

中图分类号：TP311.13

WEB数据库是日常访问互联网最常应用的形式之一，大量在线访问的WEB数据库构成了Deep Web（或者Hidden Web）。Deep Web数据库越大，则其包含的需求信息越多，就能够更好的满足访问者需求，实现社会资源的合理配置。因此，Deep Web数据库大小估算成为分辨网络优化结构信息资源丰富程度的重要依据。

1 Web数据库大小估算意义分析

1.1 有利于开展Deep Web规模宏观统计工作

互联网技术的普及应用成为网络经济的重要基础，据统计当下世界经济发展过程中Deep Web中Web数据库已经超过了45万，所包含的信息更是千差万别，用户在访问互联网过程中需要不断输入搜索关键词来查找有用信息，降低了互联网的运营效率，产生的社会影响较为深远。因此，开展Web数据库大小估算研究能够有效区分Web数据库中有效信息含量，不仅节约了访问用户大量宝贵时间，也为今后互联网发展提供了较为明显的推动作用。

1.2 满足用户查询需求

众所周知，互联网中每个Deep Web数据源只能涵盖Web中有限的、局部信息，为了加强信息完整性，Deep Web致力于扩大本身的内容覆盖性，即：用户的每个特定查询都会被Deep Web所收录，同时对其查询内容进行更广泛的链接匹配，将与该查询内容相关的信息整合在一个Deep Web中，以此来丰富用户访问内容，更好的服务用户。然而，无论是从经济角度还是从效率角度来考虑，用户更加青睐于信息更为丰富的Web数据库进行查询，而如何为访问用户提供可供匹配的Deep Web则成为了问题的关键。因此，对Deep Web中Web数据库大小估算方法展开研究成为解决现存问题的重要途径与方式。

2 基于属性相关度的Web数据库大小估算方法分析

2.1 属性分类

Web数据库中属性差异不仅会导致其所包含的语义出现显著差别，同时其估算方法也会出现严重偏差，影响最终估算结果。因此，在对Web数据库大小估算过程中首先就需要对其属性进行分类，以得出更加符合规则的结果。

（1）分类属性。Web数据库中分类属性的属性值并不是一个特定值，而是一个有限的集合，在Web数据库查询接口中通常以下拉列表的形式存在，用户可以通过选取相对应的分类属性来实现快速查找的目的[1]。当然，在Web数据库中还存在着一类较为特殊的分类属性，即：隐藏属性。该分类属性并能通过Web数据库查询接口下拉列表找出，而是通过查询容易获取的离散值集合的方式所找出的，比如：航班查询中较为常用的“国家”、“城市”等。

（2）数值属性。数值属性顾名思义就是其属性值是由不同类型的数值所组成，这些数值形成了一个较为容易估算的数值集合，其主要包含了以下几方面数值内容：时间、价格、普通数字等。

（3）文本属性。文本属性是目前Web数据库中应用范围最广、处理过程最为复杂的一类属性，其取值范围介乎于-∞―+∞之间，同时往往也是以文本框的形式出现在用户访问端口界面。目前绝大多数的Web数据库在用户提交查询申请时都会要求用户至少满足1个文本属性具有有效值。

2.2 基于相关性分析的词频获取研究

如果Web数据库大小估算无法通过用户访问界面的查询接口分类属性或数值属性进行Deep Web规模估算时，可以通过选取某个合适的文本属性来作为估算对象，按照若干频繁出现的词汇在文本属性中出现频率即可以进行Web数据库大小估算。首先，假设A1和A2分别代表Deep Web中的两个不同文本属性，向A1中提交个预定义的查询q1，q2，…qt。同时设置每一个查询所得到的结果qi（1≤i≤t），均能够在A2中得到体现。其相应的取值集合为Ri，如果不同查询值qi所得到的结果结合Ri中构成文本属性值的查询词分布情况具有明显的差异性，那么即可认定A1和A2两个属性具有一定的关联性征。如果A1和A2词汇分布情况差异性越大，那么A1和A2之间的关联性也就越大，A1取值对A2决定性也随之增强，反之亦然[2]。于是，就需要一种具体量化的手段来衡量不同文本属性之间的相关联程度，即：属性相关度。其计算公式如下：

由上述公式可知，向量之间的方公式能够评估A1和A2之间的差异性，即：t个A1在查询后得到了t个A2属性值词频分布差异，方差值如果越小，则t个词频分布差异性就越小，那么属性值A1对A2的相关度就越大。其中1/n只是一个用于对方差值进行规范化的因子。

在确定了不同关联性因素相关度之后，为待估算大小的Web数据库建立与之相匹配的相关度矩阵是估算工作最重要的环节，也是计算的基础[3]。凭借着该矩阵，Web数据库大小估算工作需要做到如下几点：

（1）选取与Ai关联度最小，或者不具有关联性的Al属性上提交一系列查询目标来获取相对应的属性Al上的随机样本并分别对该属性上特有的频繁词以及词频进行统计。

（2）利用和AiAl属性相关度来对Web数据库估算规模进行修正，将因样本自身因素造成的误差性影响降到最低，以更准确的估算出Web数据库大小，为客户服务。

设定向量V（p1，p2，…pn）代表随机样本U中频繁词及相应词汇出现的概率，其中随机样本U中必须包含n个不同的词。并且每个元素pi（1≤i≤n）代表了随机样本U中第i的词的词频，为了能够更为准确的估算出Web数据库大小，本次研究中选取词频之前m位的频繁词作为相对性的查询关键词来在其对应属性Al上进行提交查询，去掉估算值中最大样本值以及最小样本值之后，将所有得到的值域进行平均化处理来作为Web数据库最终估算值Nest：

其中，pi代表本次研究中所提交的第i个频繁词在属性Al上的词频、ni代表作为关键词的词频提交查询之后返回所得到的结果。由于本次研究已经去掉估算值中最大样本值以及最小样本值，故而在公式样本数量选择中只是对m-2个样本值进行平均计算。

2.3 基于相关度的估算值矫正分析

实际应用中并不存在完全独立的两个相对属性值，只是由于二者之间的关联性非常小，可以近似的看成是相对独立。计算所得出的估算值或多或少存在着由于分布差异所导致的偏差，为了能够有效降低相关度之间的偏差对Web数据库大小估算的影响，就需要对得出的Nest值做出相应的矫正。本文运用了回归分析来考察属性相关度与估算误差之间的关系，继而通过六次多项式函数来无限逼近真实误差值，就可以估算出Web数据库大小及规模，最终得到合理的估算值。

3 结束语

综上所述，基于属性相关度的Web数据库大小估算方法可以为客户提供更加准确的查询结果，同时也在一定程度上提高了Web数据库使用效率，成为当前乃至今后一段时期内互联网技术发展与应用的重要形式，对科研及网络经济发展具有重要的推动作用。因此，对Web数据库大小估算方法进行研究在当前发展背景下显得尤为重要。希望通过本文的研究能够为其他学者科研工作开展提供借鉴参考。

参考文献：

[1]金库，聂培尧，林培光.一种Web数据库大小估算新方法[J].信息技术与信息化，2010（12）：63-66.

[2]姜芳艽.基于Zipf分布与属性相关性的选择性估计[J].计算机科学，2010（11）：184-189.

[3]陈克坦.基于属性相关度的WEB数据库估算方法[J].硅谷，2011（12）：32.

作者单位：武汉船舶职业技术学院，武汉 430050

基于属性相关度的Web数据库大小估算方法

热门推荐更多>

精品范文更多>

基于属性相关度的Web数据库大小估算方法

热门推荐 更多>

精品范文更多>

热门推荐更多>