基于XML的Web挖掘技术在电子商务中的应用研究

时间:2022-09-30 05:50:00

基于XML的Web挖掘技术在电子商务中的应用研究

摘要:该文重点探讨了基于Web的数据挖掘问题,成分利用XML将非结构化的HTML文档转换、组织成结构化的XML文档,并开展有效的数据挖掘处理,然后在一个电子商务网站上进行了初步尝试。

关键词:数据挖掘;XML;Web;HTML;电子商务

中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)33-9562-02

电子商务作为一种新兴的事物,随着Internet的迅速发展和应用的深入,从最初的B2C(企业-个人)模式发展到目前的B2B(企业-企业)、C2C(个人-个人)、G2B(企业-政府)等不同的模式。电子商务的迅速崛起,使得商家对基于Internet的Web数据检索、挖掘等的需求不断提高。

目前,多数的Web站点,普遍由静态的或动态的HTML页面组成,使得这种Web文档只具有有限的结构性,因而要想利用分析工具准确、高效地进行数据挖掘和分析还比较困难。而XML的出现,则对基于Web的数据挖掘带来了新的挈机。可利用XML作为元标记语言的特性,用户只要在XML的文档类型定义中定义一系列有意义的标记,就可以实现对Web上大部分非结构化文档的内容进行有效的总结、分类、组织,从而实现与关系型数据库中的属性建立对应关系,这样,Web上的数据挖掘也就变得可行了。

1 XML与Web数据挖掘技术

1.1 Web数据挖掘技术

基于Web的数据挖掘就是从Internet上庞大、复杂、异构的数据中发现隐含的规律性的东西或者是特定的精确的数据。Web挖掘也不同于一般的信息检索,它是从大量的文档集合中找出所具有的结构、趋势和含义,而Web信息检索则是从大量的Web文档中找到与给定主题相关的文档,而且建立索引模型、文档内容表示、匹配策略等技术基础上的搜索引擎,搜索的精确度仍然不够高,远远不能满足那些只希望检索到精确数据的用户的要求。而Web挖掘则可以对大量的文档、数据重新进行整理、分析和组织,可以按照用户特定的要求给出结果,因而比单纯的信息检索更进一步,是未来技术发展的趋势。

按照处理对象的不同,Web挖掘可分为:内容挖掘、结构挖掘和使用记录挖掘。其中,内容挖掘是从Web文档的内容中抽取信息特征,这些文档可以是文本和多媒体文档,包括文本、HTML、图象、音频、视频等形式;结构挖掘是从Web文档的组织结构和链接关系中推导知识,这些结构不仅仅局限于文档之间的超连接,还包括文档内部的结构、文档URL中的目录路径结构等;使用记录挖掘则是从Web的访问记录中抽取感兴趣的模式。

1.2 XML应用于Web挖掘的优势

与HTML相比,XML有了很大的飞跃。XML出色之处在于它不再是一个单纯的标记语言,而是一个定义语言。HTML每个只能定义某一种文件,而XML突破了HTML固定标记集合的约束,可以定义无穷无尽的标记来描述Web中的任何数据元素及其结构,从而组成一个完整的信息体系,使文件的内容更丰富更复杂更结构化。而且,在兼容性方面, HTML规范的文件可以转换成XML格式文件,普通的SGML文件也可以转换成XML文件。由于XML能针对特定的应用定义自己的标记语言,这使得XML可以在电子商务、政府政务、企业及中介组织的信息交换中得到广泛的应用。

目前,许多主流的数据库厂商都在把XML支持结合到其产品中,或者提供可在其数据库中使用XML的工具。如IBM提供了XML Extender for DB2,允许用户在DB2中存储XML文档,并提供一些新功能协助用户处理XML文档;Microsoft 的SQL Server 6.5和7.0也进行了XML扩充用以向其他系统传送信息。

1.3 基于XML的Web挖掘过程

如果Internet上的Web站点都由XML实现,以XML作为信息与交换的主要媒介,那么,Web这个巨大的异构数据库中的XML文档就可以很容易地与关系数据库中的属性一一对应起来,从而方便地实现精确检索和进一步的Web挖掘。

在目前多数的Web站点仍由静态的或动态的HTML页面组成的情况下,虽然每个站点的开发自行其是,而且数据本身还存在着自我描述性和动态可变性,但由于XML作为可以定义语言的语言,能够把不同来源的数据结合在一起, 从而使得Web上大量非结构化的数据变成了进行挖掘的宝藏。

Web挖掘的过程由以下三步完成:

1)Web信息数据的获取。对Web数据源进行搜索,获取必要的信息。

2)Web信息的转换。将搜集到的HTML文档进行抽取,转换为结构化的XML文档,生成相应的DTD文档或者XML Schema,同时进行分类,并选择合适的数据库进行存储组织。其核心是如何将非结构化文档进行结构化处理。

3)Web信息的挖掘。将大量结构化处理的信息文档进行有效的组织与管理,根据用户的特定需求进行挖掘。

如果HTML文档比较规范,所有元素的首位标记都配对,所有元素的嵌套层次结构都正确,所有的属性值都以“”的形式出现,所有的自说明的元素以“/>”结束,那么通过对HTML文档的处理,可以从页面中抽取出所需要的属性,从而进一步转换为XML文档;但一些页面很少遵循连续的格式,在抽取属性时则比较困难。在转换过程中,主要解决HTML文档及其集合的表达模式信息(Web-SCHEMA)的抽取,即可以通过程序自动完成,也可由系统人员手工的对HTML文本作进一步的分析,将遗漏的模式信息补充进来,确定对象的属性名和对象之间的语义关系,形成完整的数据模式。

HTML的模式信息抽取出来后,为了有效的将其用XML文档表示出来,必须定义XML的合适的文档类型定义(DTD)。由于XML允许用户定义自己的标记,可能会出现混乱,影响信息的共享,因此,Dubilin Core workshop提出了一套描述符用以描述文档的内容、表现形式和相关属性,目前由15个组成,即TITILE、CREATOR、SUBJECT、DESCRIPTION、PUTLISHER、CONTRIBUTION、DATE、TYPE、FORMAT、IDENTIFIER、SOURCE、LANGUAGE、RELATION、COVERAGE、RIGHTS等,通过这些描述符,就比较容易地将HTML文档统一为XML文档。

2 实例研究

某有限责任公司作为一个基于Internet的设备信息服务公司,主要业务是通过Web提供各类闲置设备及备件的代购、代销服务,提供设备修理的技术性咨询业务、并提供设备专业人才信息等。目前,该公司的信息渠道来源主要有:一是设备调剂快讯(周刊);二是各单位通过Web提交,电话、传真等途径告知公司;三是公司从Web上搜索到的有关的设备信息。

随着Internet和电子商务的发展,从相关的Web站点搜索到的信息已经成为该公司的一个主要信息来源,但目前的搜索引擎搜索到的只是包含少量或部分有用信息的Web文档,公司仍需手工将设备的型号、设备的规格、设备的生产厂商、设备的生产日期、设备的价格、设备的数量、设备的简介等信息分捡出来,对其进行编号、分类,因此如何从Web上精确地获得所需要的信息,并将结果按设备或者是按提供商进行分类,再通过Web出去,也就成了公司急需解决的问题。

在本实例中采用了中间件的形式(由JAVA和XML共同实现),实际上包括抽取、数据转换和数据合法性检查等三个部分,如图1所示。其中抽取器包含一系列的抽取规则,主要负责从非结构化的数据中抽取设备的型号、规格、生产厂商、生产日期、价格、数量、简介等属性,用XML表示并存储起来;数据转换器将来自不同站点或数据源的数据转换为一种公共的表示方式;而数据合法性检查器则对一些条件进行监视,强制在不同级别(行、列、标)进行约束,它和数据转换器共同保证数据的完整性。

3 结束语

Web数据挖掘是一个较新的研究领域,虽然挖掘处理方法仍有待于进一步改进,但它给电子商务的发展带来的效益确实是有目共睹的。XML的兴起,更是给Web挖掘带来了新的契机,随着XML技术的更加成熟,面向Web的挖掘必然会变得更轻松,在电子商务上的应用也会更加深入。

参考文献:

[1] Goldfarb C F,Prescod P. XML实用技术[M].张力,王显著,译.北京:清华大学出版社,2003.

[2] St.Laurent S.XML基础教程[M].康晓林,伊希荣,译.北京:电子工业出版社.2004.

[3] 胡彦.XML技术与B2B电子商务发展[J].电脑开发与应用,2000,13(9).

[4] 杨建武.基于SGML/XML的Internet信息[J].计算机工程与应用,2000(11).

[5] 李寅,林宣雄.基于Web的XML数据交换技术[J].计算机系统应用,2000(11).

[6] 孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001(4).

[7] 徐振航,刘莉芹.基于XML的数据挖掘技术[J].计算机系统应用,2001(1).

上一篇:浅谈多媒体课件在《高等数学》教学中的应用 下一篇:基于城市地图的无线终端监控系统的设计与实现