网页资源采集策略论文

时间:2022-10-04 05:19:27

网页资源采集策略论文

随着网络技术的日益发展,网络信息资源正以人们难以想象的速度增长,网络也日渐成为人们获取信息的主要途径之一。搜索引擎为人们从海量网络信息资源中查找所需信息提供了便捷途径,但由于其返回的信息资源在查准率和查全率上都无法得到保证,人们经常会得到许多无用信息,反而降低了信息资源的使用效能。因此学科信息门户顺应时展需要应运而生,用户可通过学科信息门户快捷、有效地发现高质量的网络信息,同时使他们尽可能多地获得有价值的信息和信息资源。本文认为高质量学科信息门户建设应注重深层网页资源的收集与整合利用,并应重视深层网页资源采集的方法与策略。

1学科门户网站建设现状

学科信息门户(SubjectInformationGateway,SIG)是“提供可检索和可浏览的互联网资源目录的联机服务系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。”[1]它致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准规范资源的选择,并提供对资源的丰富描述;提供依据学科体系结构和资源类型分类的浏览和检索入口;有对资源的管理和长期发展的政策、元数据应用与标引规范、资源共享与互操作机制等[2]。

自1996年DESIRE一期工程开始,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE项目进入第二期时,学科信息门户已经在世界范围内呈“燎原”之势,在美洲、欧洲、大洋洲广泛实施。并且在2000年以后逐渐从单个的研究项目向大规模的建设项目转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业模式上同其他的企业信息门户、知识门户相互交融,出现了形式和内容的统一态势[3]。国际上比较权威的学科信息门户网站有英国的RDN、SOSIG,欧洲的RENARDUS,美国的LII等。

随着国外大规模的学科信息门户建设以及国内学者对学科信息门户的研究,学科信息门户建设的思想和理念逐步为国内业界接受。国内最早是上海图书馆于1999年开始建设的“数字图书馆资源总汇表”,现在已发展成为“数字图书馆”资源门户。2002年3月开始至今,在中科院知识创新工程科技基础设施建设专项“国家科学数字图书馆(CSDL)项目”的子项目资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户[4]。热点门户是国家科技图书文献中心组织建设的一个网络信息资源门户类服务栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有武汉理工大学图书馆的“材料复合新技术信息门户”,中国林业科学研究院科技信息所和中国林科院图书馆合作建设的“林业学科信息门户”等。

国内学科信息门户在软件平台的完善性、数据标准化、数据共享性、高质量信息资源数量、描述对象数量等方面存在着一定的不足[5],有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、服务和信息资源开发,不能适应数字图书馆集成服务的发展方向,也不能满足用户对信息资源一站式服务的要求。

2深层网页资源的价值

由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进行搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络[6](invisibleweb,hiddenweb)、深层网页资源(DeepWeb,DeepInternet)[7]。

自1994年Dr.JillEllswonh提出Invisibleweb这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2004年9月14日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息[7]。雅虎推出了“内容获取项目”,该项目意在为公共数据库中的数十亿个网页提供搜索索引[8]。与此形成鲜明对比的是,国内学者并不太重视这个问题,相关论述较少,极少有学科信息门户网站将这部分极具学术研究价值的网络信息资源作为特色信息资源加以收集整合。

根据BrightPlanet对深层网页资源的范围、数量及相关性调查结果表明,深层网页资源有以下特点[9]:

(1)信息量大。深层网页的信息量达7500TB,是WWW资源的400~550倍。它拥有近5500亿个文档,而表层网络只有10亿个。2000年深层网页站点已超过20万个,2004年达到30.7万个,其中60个最大的深层网页站点收集的信息约有750GB,超过表层网络范围40倍。

(2)利用率高。深层网页站点的访问率很高,月访问量是表层网络站点的150%,且经常被其它网络资源链接;但是许多典型的深层网页站点不为大众所熟知。

(3)发展迅速。深层网页资源是互联网上新生信息增长最大的一个种类,2000年~2004年间增长了3-7倍。

(4)信息质量高。深层网页站点倾向于学科范围更狭窄、内容更深入的方向发展。信息内容与每个所需信息、市场及领域具有较高的关联性,且大部分(54%)深层网页资源存放在专题数据库(topic-spe-cificdatabases)中,经统计分析其高质量内容比表层网络多1000-2000倍。

(5)免费开放。95%的深层网页资源对公众免费开放,即无需支付费用或订购使用。付费资源前3位分别是DBTOnline、Lexis-Nexis和DIALOG,占付费资源的71%;免费开放资源的前3位分别是美国国家气象数据中心(NationalClimaticDataCentre)、美国国家航空与宇航局(NASA)和美国国家海洋数据中心(NationalOceanographicDataCenter),占开放资源的92%。

因此,将这部分资源收集整理到学科信息门户网站中来,有利于进一步提升学科信息门户网站的学术指导价值、利用价值,对于当前学科门户网站的建设是非常有意义的。

3深层网页资源采集的方式

学科信息门户建设,要从大量的网络资源中选出有价值的资源,要在较短的期限内达到信息的规模效应,在人员的安排上仅靠有限的学科专家和相关的专业人员是难以达到预期目的的。因此,深层网页资源的采集应遵循多元化策略,主要可采取以下措施:

3.1人工采集

由工作人员查阅各种文献、浏览互联网或向有关专业人员请教获得相应的信息源,定期对这些信息源进行跟踪检索获取数据。人工采集方式的工作效率较低,而且所收集的信息不全,带有一定的随机性和随意性。常用的信息源有:(1)对公众免费开放的数据库资源,如PubMed、GenBank、DOAJ等。(2)目录指南(directories),如Librarians''''IndextotheIntemet中的invisibleweb资源。(3)搜索“InvisibleWeb”的网站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司经营的网站)、InfoMine、等。(4)专业搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、Science.gov等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,检索策略为“主题词或关键词+database”,这样就可以搜索到这些搜索引擎所收录的该主题词或关键词方面的相关数据库链接。如toxicchemicalsdatabase。

3.2自动化采集

即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数深层网页资源为蜘蛛程序无法访问或索引的数据库,自动化采集深层网页资源需要使用专门的深层网页数据挖掘软件。

门户网站建设可计划自行研发具有自主知识产权的深层网页资源采集软件,但技术难度较大,会占用学科门户网站建设过程中大量的人力资源和财政资金,对普通图书馆或机构来说不是最佳方案。另一种方式是采用专用商业软件,这类软件可实现对深层网页资源的检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果送回给用户。如BrightPlanet开发用于检索深层网页资源的专业软件LexiBot2.0,用户可将其下载到自己的计算机上,采用关键词串检索,可同时对2200多个网站和数据库进行检索,检索过程可采用后台操作模式,不影响用户做另外事务。目前BrightPlanet公司已停止销售该软件,取而代之的是DQM2(BrightPlanet''''sDeepQueryManagerTM),可根据用户的指令对超过70000个深层网页专业数据库同时进行检索,并实时进行跟踪和监测为用户返回最新研究进展提示,用户也可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一步管理制作,后续资料可进行追加,是一个较为理想的门户网站建设深层网页资源采集软件[10]。另外可供参考的还有普渡大学(PurdueUniversity)的EduMed,专门用于搜索医学多媒体数据库[11],该软件前身是一个多媒体管理系统VDBMS。

自动化采集的工作效率较高,可以确保查全率。但所收集的资料良莠不齐,质量难以保证,而且所收集的信息量太大,容易使系统难以承载。

3.3人机结合采集

充分利用网上自动漫游、自动跟踪、自动分类和自动标引技术,采用人机结合的方式,提高资源采集的效率,以适应网络信息变化快、更新迅速的要求。一方面工作人员可以对软件定期收集来的资源进行严格的筛选评价以保证其质量,另一方面可以制订一系列专业学科的检索策略,通过软件有针对性收集网络数据资源,并将收集到的资源用元数据的规范描述与提示后存放到数据库中,以实现主题浏览查询、资源类型浏览查询和关键词查询等多种检索方式。

3.4用户推荐

成立学科信息门户建设的志愿者,建立用户推荐资源的机制和工具,方便用户通过Web界面或E-mail等方式推荐有价值的学科信息。教学科研人员和各类信息用户,既是信息的利用者,也是信息的挖掘者和发现者,我们应积极鼓励科研人员和各类用户根据网站确立的标准推荐新资源和权威资源,同时设立“本周新资源推荐榜”、“月或季度新资源推荐榜”和“年度新资源推荐榜”等栏目,并对量多质优者进行奖励。

4深层网页资源的整合

4.1网络导航

即以网络导航的形式将深层网页资源信息到学科信息门户网站,用户通过门户网站提供的链接即可访问相应的深层网页搜索引擎、目录或数据库。网络资源的组织方法有按学科、资源类型、字顺、主题树和数据库组织等,有学者认为后两种方式相对科学、合理,用户可通过主题浏览和关键词查询找到相应的网络资源[12]。

4.2深层网页资源的跨库检索整合

这是一种基于系统的整合方法,通过检索软件可实现对多种不同结构的数据库同时检索并返回检索结果。这种跨平台或异构平台的开发与应用在国内已有一定的发展,在图书馆数字资源的集成检索系统方面成功案例较多,如CALLS和北京大学图书馆共同开发的统一检索平台,该平台提供了基于异构系统的跨库检索服务,用户可按学科、按数据库名称、按文种同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果,并可进一步得到详细记录和下载全文。目前,国内的微生物特色学科信息门户的数据库集成检索引擎实现了网络数据库跨库检索,它可对945个生物信息学热门数据库同时进行跨库整合检索。4.3深层网页资源的保存

由于网络资源的动态性,许多有价值的网站信息稍纵即逝,如果不加以及时保存这些信息将无法找到和再现。学科信息门户网站如能根据学科专业特点保存相应的深层网页资源,以某种方式呈现给本学科专业用户,不仅可对这部分资源起到保存作用,而且能够提高深层网页资源的利用率实现其真正价值。

通过自动化采集软件获得的深层网页资源,其保存是一种基于数据的整合方式,核心是数据加工要标准化,与其它网络数据的组织和处理要同步接轨,也就是要将广泛应用于网络数据加工处理的元数据应用到深层网页资源中来,这样有利于整个学科信息门户资源的统一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度会议项目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI协议把元数据的思想应用于深层网页,利用元数据来标注深层网页资源,可获得更高的检索效率[13]。这个会议精神给学科门户网站建设过程中开展深层网页资源的整合工作提供了技术设想。

对深层网页资源进行加工整合应遵循以下策略:(1)标准化策略。要求提供规范和深入的知识化描述,能够支持开发集成和个性化定制服务。标准化是实现跨学科信息门户互操作和数据共享的基础,是实现学科门户可持续发展的必然要求。(2)开放性策略。要求在信息结构、元数据描述、知识组织体系、用户界面、用户使用后管理等各个层面具有良好的开放性机制,支持个性化定制和开放集成。(3)及时性策略。要求信息的更新和维护必须及时、准确、有效。(4)权威性策略。要求优化选择学科信息门户的深层网页资源,以保证门户的资源质量。

4.4深层网页资源整合涉及的法律问题

因为主页对网站的重要性不可低估,人们习惯于将重要的广告放置在主页上,以此实现应有的点击率和广告收入。而深层网页资源在学科门户网站上的链接是直接进入他人网站目的网页的深层链接。这种链接跳过主页,直接进入信息所在页面,导致受众不易辨认信息的真正来源,即使文末注明作者,有学者认为也会侵害被链接网站的权利[14]。另一种学者的观点是,深层链接并不会必然导致直接侵犯版权。由链接引起的版权侵权纠纷,主要涉及是否对作品专有使用权(复制权、发行权、改编权、传播权)构成侵犯。

对于网站之间相互设立链接及网页资源的保存问题,我国尚无具体的法律规范。深层链接是否会侵犯版权,在我国也属于理论探讨阶段。作者认为,尽管95%的深层网页资源属于免费开放资源,本着为学科信息门户顺利健康发展的宗旨,学科信息门户网站的建设和服务应在法律框架内进行。

4.5解决方案

设置链接前事先征求被链者的意愿。尽管可以依据“默示同意原则”,为避免纠纷,设链者在设置链接前还是事先通知被链接网站为宜。如果后者在合理时间内没有明确表示反对,则视为默认链接[15]。采用深层链接的情况下,建议在设置链接的文字表述时尽量写明是指向哪个网站的页面,以声明自己并非直接在使用这个网页。

资源采集时注意网页版权声明项,如注有不得转载使用这之类说明的网页资源不加以收集。若采用软件自动搜索,则要加有关这方面的滤过系统。

同时,国家应尽快出台相关政策法规,对国家图书馆、公共图书馆及其他相关图书馆在网络信息的复制、编辑、保存和服务权限方面给予立法支持。

【参考文献】

1WhatisSubjectGateway?/html/subjectgateways/subjectgateways.html

2张晓林.分布式学科信息门户中网络信息导航系统的规范建设.大学图书馆学报,2002(5):28-33

3毛军.学科信息门户发展现状综述.图书情报工作动态,2002(3):20-22

4中国科学院国家科学数字图书馆在建项目略.

10/products/dqm.asp

11www.cs.purdue.edu/vdbms

12毛娟.网上免费资源的收集与整理.图书馆杂志,2004,23(7):24-28

13袁顺波.隐蔽网络及应对策略研究./eprint/Upload/2005/1112714455561.doc

14董永森.深层链接引起的侵权责任——评析外汇币种走势图引发的侵权纠纷案./second/article,asp?artno=366

15赵丽梅.链接引发的法律问题探析./second/article.asp?artno=370

上一篇:农村建设通知 下一篇:RSS应用和发展分析论文