浅谈WEB数据库应用

时间:2022-10-27 02:38:39

浅谈WEB数据库应用

摘要:伴随着Internet的日益发展和壮大,如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容,成为困扰信息服务提供者的主要问题。针对该问题,基于WEB的搜索引本文从WEB搜索技术的智能化、个性化发展轨迹和应用特点及在生活中的应用开始,深入探讨了智能搜索引擎系统的结构、构建以及相关应用。旨在为WEB搜索技术的演进和完善提供参考。

关键词:WEB搜索引擎;智能化;Lucene;中文切词

中图分类号:TP311.134.3文献标识码:A文章编号:1007-9599 (2010) 03-0050-02

WEB Database Application

Zhang Songlin

(Liaoning Panjin Vocational and Technical College Panjin124000,China)

Abstract:With the increasing development and growth of Internet,how in the vast sea of network information quickly and efficiently search for a specific subject has become troubled by information service providers a major problem. For the problem,based on WEB-cited article from the WEB search of intelligent search technology,personalized development track and the application characteristics and the application start in life,in-depth study of intelligent search engine,system architecture,building and related applications.WEB search technology is designed to evolve and improve as reference.

Keywords:WEB search engine;Intelligent;Lucene;Chinese segmentation

随着Internet的广泛应用,由于B/S结构所拥有的投资维护成本低、客户端部署简单等特点。目前,Web应用程序正在以非常快的速度在增长,Web应用程序不再是简单显示信息的网站,而逐渐融合核心的业务逻辑,成为IT领域的业务处理平台。Java以其面向对象、跨平台、安全性、健壮性等优秀特性已成为开发Web应用的主要选择。JDBC为基于Java平台的Web应用程序完成数据库操作提供了完备的方法接口。基于JDBC的Web数据库应用程序的结构如图1所示。因Web数据库接受来自众多并发的客户端所发出的SQL操作,特别是在企业级应用中,Web应用程序需要尽可能快的执行SQL操作并返回结果,所以需要进一步优化数据库的访问性能。

一、基于WEB的搜索技术的定义、发展趋势与应用热点

(一)定义,一般说来,基于WEB的搜索技术主要指的是WEB搜索引擎(Search Engine)技术,即指通过WEB在Internet上建立的一种向网络用户提供网上信息资源检索和导航服务的系统。搜索引擎提取网上信息如网站、网页、URL、以及BBS,Telnet,FTP,Newsgroup等,进行整理、组织、加工、处理,建立管理和存储这些信息的索引数据库,并提供基于该索引数据库的检索。

(二)发展趋势与应用特点,搜索引擎技术是当今计算机应用技术的前沿学科,搜索引擎技术目前已经发展了三代。第一代是基于人工登入、检索、排序的目录式搜索引擎,以YAHOO为代表。我认为这一代搜索引擎的局限在于查全率(检出的文档与相关文档之比)比较低。目录式搜索引擎还存在两大问题:一是分类是按分类者或分类软件的分析而定,不一定与用户的意见一致;如果用户对查找目标了解比较浅显,就需要从其14个大类别开始选取,再一层一层深入,而忽略了事物的横向客观联系。第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎,以Google和Baidu、AltaVista为代表,通过使用网络机器人(WEB ROBOT)自动遍历决大多数INTERNET网页,并存贮其中的主要文本内容、图片或多媒体信息。在本地维护一个海量的网页存储数据库,存储数十亿至几百亿个网页,根据关键词的使用频度建立索引(这也是个巨量的工作)并维护之,利用特有的页面排序算法(如GOOGLE的PAGE RANK)返回给用户查询结果。由于页面权值算法有其特点,尽管查全率比第一代搜索引擎有很大提高,但不能保证查准率(检出的文档与目标文档之比)。当前,第三代搜索引擎的发展趋势是更加智能化、个性化,并在此基础上力求具备更高的查全率与查准率,更全面的查询功能。

首先,通过目录型和检索型的搜索引擎技术相互结合,提供多样化和个性化的服务。以Yahoo为例,用户可以从它的首页上查看新闻、金融证券信息、天气预报、浏览黄页,可以进行网上购物、拍卖、找人,或者使用免费E-Mail和网上寻呼等服务。近期许多搜索引擎已开始提供个性化的服务,例如Yahoo的“My Yahoo”、InfoSeek的“personalized start page”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。

二、ASP技术访问WEB数据

目前在WINDOWS环境下有多种访问WEB数据库的技术,主要有:

(一)公共网关接口CGI(Common Gateway Interface)CGI是较早实现的技术。适用于多种服务器平台,如UNIX、WINDOWS等,但CGI的开发成本高、维护困难、功能有限、不具备事务处理功能、占用服务器资源较多。

(二)INTERNET数据库连接器IDC(Internet Database Connector)IDC集成在ISAPI(Internet Server API)中,充分利用了DLL技术,易扩充,但编程较CGI更为复杂,只适用于小型数据库系统。

(三)先进数据库连接器ADC(Advance Database Connector) ADC提供了ActiveX Control来访问数据库,它的主要特点是数据查询由用户端浏览器执行,因而需将服务器端数据库中的部分记录下载到用户端,系统开销较大、响应慢,只适用于特别频繁的数据库查询操作。

(四)JAVA语言是一种面向对象、易移植、多线程控制的语言,可通过JDBC去连接数据库。用JAVA/JDBC编写的软件可移植性强,适用于多种操作系统,但其执行效率和执行速度还不理想,目前无法建立高效、高速的应用。

(五)动态服务器页面ASP(Active Server Page)ASP是微软公司最新推出的WEB应用开发技术,着重于处理动态网页和WEB数据库的开发,编程灵活、简洁,具有较高的性能,是目前访问WEB数据库的最佳选择。

三、Web数据库关系数据模型优化

为了提高Web数据库应用系统的性能在优化JDBC的基础上,可以对数据库库的关系模型进性优化。

(一)对关系模式进行逆规范化,当查询操作涉及多个关系时,对那些使用频率高、要求响应速度快的查询操作设计的关系适当合并,以减少对关联的操作,提高数据库的响应速率。

(二)对关系模式进行垂直分割,当关系中一部分属性使用频率高,而另一部分属性使用率低,可将关系分解为两个关系,降低单位时间内所有应用需要存取的数据量。

(三)对关系模式进行水平分割,即根据关系中某属性把关系分解成多个关系,这样能够在查询的时候迅速定位,提高查询速度。比如校学生管理信息管理系统中,定义学生的属性,学生:(学号,姓名,性别,班级,学院)。因不同的用户在访问时关心的是不同学院的学生,所以就可以学院属性把关系分割为多个关系。

四、Web挖掘在电子商务中的应用

目前对于,Web挖掘的对象和使用的方法层出不穷,但随着电子商务网站的兴起,电子商务将是未来Web挖掘的主要发展方向之一,因此它在各种商业领域都存在广泛的使用价值。在当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些海量数据使数据挖掘有了丰富的数据基础,同时高性能计算机和高传输速率网络的使用也给数据挖掘技术提供了坚实的保障。介绍以下几个方面的应用:

(一)分析查找获得潜在客户。随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式,以便采取相应的营销措施,促使企业利润的最大化。

(二)保留客户。数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。你完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。数据挖掘还可以发现具有哪些特征的客户有可能流失,这样挽留客户的措施将具有针对性,挽留客户的费用将下降。对客户来说,传统客户与销售商之间的空间距离在电子商务中己经不存在了。

(三)聚类客户。在电子商务中客户聚类是一个重要的方面。通过分组具有相似浏览行为的客户,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的服务。例如,有一些客户都花了一段时间浏览“baby toys”“baby furniture”页面,经过分析这些客户被聚类成为一组。销售商根据分析出来的聚类信息,就知道这是一组“expecting parents”客户,对他们所进行的业务活动当然也就不可能同于其他被聚类了的客“college students”、“office ladies”。及时调整页面及页面内容,使商务活动能够在一定程度上满足客户的要求,对客户和销售商来说更有意义。

(四)交叉销售与个。交叉销售的好处在于,对于原有客户,企业可以比较容易地得到关于这个客户的比较丰富的信息,大量的数据对于数据挖掘的准确性来说是有很大帮助的。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定他下一个购买行为的关键,甚至是决定因素。这个时候数据挖掘的作用就会体现出来,它可以帮助企业寻找到这些影响他购买行为的因素。

随着计算机技术的迅猛发展和Internet资源的快速增长,特别是电子商务的兴起,Web挖掘成为21世纪的热门研究领域之一,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web挖掘尚处于学习、跟踪和探索阶段,Web挖掘有许多问题有待于进一步的研究和深化。

参考文献:

[1]苗忠义,胡鹏昱,崔志明.用Capture-Recapture方法估计Web数据库大小[J].计算机应用研究,2009(5)

[2]姜芳艽,孟小峰,Deep Web数据集成中查询处理的研究与进展[J].计算机科学与探索,2009(2)

作者简介

张松林(1976-),男,辽宁省盘锦市,职称:讲师

上一篇:图书馆如何实现数字化管理 下一篇:基于多媒体教室设备管理系统建设探讨