Web数据挖掘技术在数字图书馆中的应用研究

时间:2022-09-07 09:19:17

Web数据挖掘技术在数字图书馆中的应用研究

摘要:随着信息技术的高速发展,人们积累的数据量也急剧增加,Web数据挖掘技术作为处理数据的专项技术,其优越性能在许多领域都有所体现。针对Web数据挖掘技术在数字图书馆中的应用进行研究,分别从Web数据挖掘的难点、XML在Web数据挖掘中的应用以及Web数据挖掘技术在数字图书馆个性化服务中的应用三个方面展开分析,以促进Web数据挖掘技术的不断完善,使它能够为数字图书馆提供更好的服务。

关键词:XML;Web;数据库;数据挖掘;数字图书馆

中图分类号:TP391文献标识码:A文章编号:1672-7800(2013)001-0131-03

0引言

信息时代带动了网络技术的高速发展,随着人们对数据知识量需求的增大,图书馆的功能也逐渐趋向于多元化,数字图书馆是一种建立在传统图书馆基础上的信息环境。图书馆的信息化及网络化使得图书馆可以将知识和信息进行分布式储存,它除了具备传统图书馆的功能外还能向用户提供各种智能化的访问服务。分布数据存储是利用站点的存储功能,将数据信息储存在多个站点当中,用户只需利用网络的搜索功能就能实现信息的搜索。网络数据挖掘就是根据人们对网络信息服务需求的原理制作而成,它能为用户快速提供网络信息检索及信息服务等。

1Web数据挖掘的难点

1.1Web信息量大且更新迅速

数据仓库中的数据相对其它数据而言更加稳定,随着网页信息容量的不断增大,信息的更新速度使得搜索引擎无法发挥其功能。尽管搜索引擎的规模在不断扩大,但仍无法适应网页的更新速度,在信息的跟踪、管理和收集上都存在一定的局限性。虽然网络带宽也在逐渐扩大,相关处理技术也不断更新,但在网页搜索引擎方面仍达不到快速、全面的要求,相对特定用户而言,绝大部分网络信息都属于垃圾信息,因此,对网页的数据挖掘应根据用户需求设定一个范围。

1.2Web信息获取困难

早期的网页信息多以HTML文件的形式存在,简单的HTML文件使得Web挖掘工具能够轻而易举地获取到信息,且Web站点并未设置相关防护措施。随着数据库技术和语言的不断拓展,网络页面信息也从静态发展成动态,大部分信息和数据都是直接从数据库中调用,因此,网页抓取工具对网页的访问受到了限制。另外,还有部分站点可以对网页抓取工具进行分辨,一旦被认定为不友好的访问即禁止该工具的访问权限或转向其它页面。

1.3异构数据库环境

相对数据仓库而言,可以将Web看成一个信息复杂且容量巨大的大型数据库,网页上的一个站点就相当于一个数据源,站点与站点之间的组织方式和信息各不相同,因此,Web就成了一个容量巨大的异构数据库环境。根据用户需求可对本地数据库的数据来源进行设置,但Web上的数据来源则无法实现统一,若要挖掘Web上的数据,首先应解决站点之间异构数据库环境的集成问题,只有集成站点数据才能统一数据来源。

2XML在Web数据挖掘中的应用

2.1实现异构数据的集成管理

XML是一种数据模型,它具有结构性,因而用户很容易就能将其与关系数据库的属性相互对应,所以在模型的查询和抽取方面都能进行精确的记录。针对站点之间的组织方式和信息的不同,XML都可以有效地解决,即使数据不具备结构性也不处于同一站点,XML也能将其规范到一个统一的数据库上。在中间层的服务处理器上安装软件,使得数据可以在后端数据库上集成。

2.2将大部分处理负载从Web服务器转到Web客户端

无论是在数据挖掘过程中还是在Web挖掘过程中,数据处理都是一个很重要的环节。服务器端是对数据进行预处理的主要部分,其开发环境是参照传统的C/S模式,根据客户向服务器发送的请求,服务器进行处理后给予不同的响应,大量的数据处理使得服务器的负荷不断加重,同时也增加了网络管理者的工作量。显然,这种处理方式只适合简单的用户需求,一旦用户需求繁杂而多变,服务器端就可能陷入瘫痪状态。XML可让客户端根据自身需求选择相应的程序,用户在接收数据的同时,系统也解析了数据的含义与结构,使得分布式计算在图书馆中的运用成为可能。

2.3促进数据交换

在Web数据挖掘中,结构不同的数据源之间通常需要传递业务数据,基于XML的数据自带描述功能,不需要借助系统内部的描述就能完成数据的交换与处理。借助XML用户对本地数据的计算和处理就更为简便,将数据用XML格式发送给用户,用户通过应用软件解析数据即可实现对数据的编辑和再处理。不同的数据具有不同的传递标准,而XML并没有具体的数据传递规范,因而XML具有自动理解功能。

2.4需要Web智能根据个人用户的需求裁减信息内容

传统的HTML主要是通过对数据的外观进行描述,XML则是通过对数据的类别进行描述。XML具有选择数据显示方式的功能,而数据的显示方式决定了数据的表现能力,因而XML在数据显示中具有较大影响。另外,XML还具有裁减和编辑信息的功能,具体的处理方式需根据用户的不同需求进行处理。在数据传递标准方面,XML并没有对数据进行具体的规范,因而程序能自动理解XML传递数据的规范。

3Web数据挖掘技术在数字图书馆个性化服务中的应用3.1发现用户的兴趣爱好

Web站点的设计具有一定的结构,页面与子页面之间的组织通常是按照子页面的类别进行排列的,从用户访问的Web站点就能得知用户的兴趣爱好。通过分析用户浏览页面所用的时间及页面字符数目就能得知用户的喜好,当用户对某个页面内容感兴趣时,花费的时间就越长,反之就越短,因此,可以通过挖掘用户浏览时间信息及路径信息来统计页面或商品的受欢迎程度。具体算法如下:

Step1:在Web网页中选取一定范围内的Weblog文件,将文件进行预处理;

Step2:对用户访问页面集进行设置p={P1,P2,…,Pn},

Dowhilenoteof()

计算页面访问时间ti;

统计访问页面字符数ci

Skip

Enddo

由此可得访问页面的时间集合为T={t1,t2,…,tn};

被访问页面的字符数集合则为C={c1,c2,…,cn};

Step3:利用公式Ii=ti12ei×L可对用户USEEID访问的页面Page的兴趣度I进行计算;

上述公式中的L代表路径因子,通过用户在访问页面的访问路径PL中可对路径因子进行深度设定。L的取值范围如下所示:L∈>1,当访问网页为访问路径的终点

=1,当访问网页不是访问路径的终点兴趣度的算法是通过挖掘用户浏览页面的时间信息和路径信息而获得的,它能真实准确地反映当前页面信息受欢迎的程度,根据用户的不同兴趣爱好制定具有个性化的访问空间,从而达到投其所好,并减少搜索时间的目的。

3.2发现用户的期望位置

根据一定的设计策略,Web站点的结构成链接状态,与用户期望的链接结构相比,Web站点的链接结构仍存在一定的缺陷。如图1所示为用户访问的期望位置图,代表目标页面X处于页面B1之下,但选择AB3C4浏览路径的用户更多。由此可知,用户期望页面X的位置应该在B3或者C4下,通过在B3、C4与页面X之间建立链接,就能增加网站的访问率。发现用户期望位置算法如下所示:

Step1:IndexonID+时间toF1:

Step2:通过Weblog扫描搜索文件F1,从页面序列P中摘取出用户ID;

Step3:设p={P1,P2,…,Pn},代表用户访问过的页面集合,其中Pn代表目标页面;

B=;

i=2;

Whilei≤n-2

{if(pi-1=pi+1)ornolinkp1topi+1addpitoB;

i++;

}

if(Bnotempty)

addpn,B,pn-1tocurrentURL,backtracklist,Actuallocationtable;

Step4:统计用户在页面B中停留的时间Ti;

当Ti>Si,用户所处的位置就是期望位置,根据实际情况计算出时间阈值。

3.3发现频繁访问的路径

利用挖掘技术挖掘用户访问频繁的路径时,需要用到路径分析技术,每个Web站点都具有如下形式的有向结构图。图2为Web站点结构。G=(N,NP,E,EP)在上述公式中,N代表结点集;NP代表结点属性集,NP={Node∈N,{(USERID,hils)}n},n≥1,其中Node代表访问结点的次数,USERID代表客户记录;E表示有向边集;EP代表有向边属性集NP={Node∈N,{(USERID,hils)}n},n≥1,它能对有向边及所在路径的编号进行记录。

USERIDMm×n=h1,1h1,2…h1,j…h1,n

h1,1h1,2…h1,j…h1,n

………………

h1,1h1,2…h1,j…h1,n

………………

hm,1hm,2…hm,j…hm,nURLID图1用户访问的期望位置

图2Web站点结构

4结语

通过数字图书馆的Weblog文件就能对以上算法进行评估和验证,该Web站点总共由5个层次组成,除了第一层为首页层外,其它层次都包含着数量不同的目录。整个Web网站分为6487个页面,从访问日志记录中任意抽取一个星期的访问记录,从中获取用户的IP地址、访问时间及URL,具体格式如下所示:

10.78.136.32.XXX,9:34:25,/research/index.html

通过挖掘技术得知在整个Web网站的6487个页面中,其中有125个页面的实际位置与期望位置存在差异,另外有26个页面存在相关性。根据以上结果可对Web站点间的结构进行链接,从而提高网页的访问率。

参考文献:

[1]王玉珍.Web数据挖掘在数字图书馆个性化服务中的应用[J].自动化与仪器仪表,2010(3).

[2]李卓玲,王健.基于Web挖掘的个性化服务系统的研究与实现[J].信息技术,2007(10).

[3]GONGYUHUA,XINGNAISHENG.数据挖掘技术在高校数字化图书馆中的应用[J].数字社区&智能家居,2008(34).

[4]王预.基于数字图书馆检索技术的数掘挖掘研究[J].微机发展,2006(11).

上一篇:数据挖掘技术及其在数字图书馆中的应用 下一篇:大肠息肉临床与病理相关性研究