专题:信息检索的新发展[武夷山编委组织]

时间:2022-10-30 12:35:57

专题:信息检索的新发展[武夷山编委组织]

编者的话

几十年来,情报学的研究热点时有变化,各领三五年的情况是常见的,唯独信息检索是不变的热点。美国著名情报学家萨拉赛维奇认为,情报学可分为两大块:第一块包括对文献和文献结构的分析研究、信息传播与科学传播、情报的社会背景、情报利用、情报查寻和情报行为,等等;第二块就是检索[1]。信息检索(IR)在情报学中的地位由此可见一斑。

认知导向的信息检索(Cognitive Information Retrieval)、用户导向的信息检索及系统导向的信息检索,是上世纪60年代到9 0年代在信息检索领域出现的三大方向。认知信息检索是与传统系统导向的信息检索相区别的一种lR研究范式,是后者的有益补充。它更多地关注用户和认知导向研究在信息检索系统设计中的应用,并试图成为联系专注信息检索系统性能的计算机专家和考察人类信息行为的社会科学研究者之间的交流平台。目前,国外在该领域取得了一定的研究成果,但国内却很少关注。事实上,正是认知信息检索,有望在具有图书馆人文传统的信息查寻与具有情报学技术传统的信息检索之间建立起互动与沟通的桥梁。

从更为宏观的角度来看,信息查寻(Information Seeking)和信息检索以往是两个不同阵营的研究团体所从事的研究领域,虽然两者都是对人类信息行为的研究。长期以来,信息查寻的研究以图书馆学为背景,根植于社会科学之中;而信息检索大多是建立在计算机科学方法基础之上的。两者的研究及其研究者都处于相对隔离的状态,并各自沿着不同的轨道向前发展。近年来,国际学术界出现了一种新的动向一两者开始了互动与交流,出现了整合与集成的趋势,其中尤以国际知名情报学家Ingwersen和Jarvelin为代表,他们提出信息检索与信息查寻研究人员应该抛弃以往相互隔离的狭窄研究路径,充分认识各自研究路径的价值和局限性,开展相互借鉴与互动交流。他们倡导在情境中将两者有机地集成,并提出了集成的信息查寻与检索(Is&R)研究框架,从而建立了一条新的研究路径。

一方面,认知信息检索作为一种有别于传统的实验室信息检索的研究范式得到了不断发展,信息检索与信息查寻研究开始出现了互动和整合的趋势;另一方面,从信息检索技术本身的发展和应用来看,信息检索和信息抽取之间的关系研究、全文数据库检索技术等成为当前研究与应用热点的一部分。

信息检索和信息抽取是两个密切相关但又完全不同的概念。在处理技术、处理粒度、处理目标、发展趋势等方面,它们都有所不同。分析两者之间的差异有利于研究的深入,理清它们的关系有利于促进两者的发展,而它们的结合将会更好地服务于用户的信息处理需求。

专题栏目这组文章从理论和实践应用两个侧面介绍了信息检索的研究进展。在理论进展方面,《认知信息检索的新方向》介绍了认知信息检索的含义、与之相关的重要概念及研究模型,总结了认知信息检索所取得的成就和新的发展方向。《信息查寻与检索的集成研究框架》介绍了Ingwersen和Jarvelin提出的信息查寻与检索(Is&R)集成研究框架,并对其进行了评述。在具体技术与实践应用方面,《从检索技术的实现看三大全文数据库的发展》分析了中国期刊全文数据库(清华同方)、数字化期刊全文数据库(万方数据)、中文科技期刊数据库(重庆维普)这三大全文数据库的检索技术实现的特点,剖析了全文数据库发展的三大核心竞争力,即历史数据的回溯、当前的数据质量和未来的增值服务。《信息检索与信息抽取差异性探析》从、会议组织、出入口、关键技术、发展趋势等方面,对信息检索与信息抽取进行了比较分析。

信息检索的认知转向及其与信息查寻的集成,代表了该领域的前沿动向和发展路径,应当引起国内学界的足够重视。信息抽取与全文检索又是当前信息检索技术应用所关注的热点。本组文章抛砖引玉,期望能引起国内学界对信息检索理论和技术应用的更多关注,进一步推动国内的相关研究。

3认知IR研究的模型

3.1Wilson模型

T. D. Wilson于1999年提出了IR信息行为研究模型[3],揭示了主要概念间的嵌套关系,其核心思想是:IR总是处于信息查寻过程的情境之中,而信息查寻又是构成整体信息行为的其中一种。如图1所示:

3.2Kuhlthau的检索阶段与过程模型

Carol C. Kuhlthau开展的一系列长期研究结果表明,学生和图书馆用户的学习任务与问题解决包括几个阶段[4]。他从研究中总结出一种模型,认为人们检索与使用信息的差异取决于过程阶段(见表1)。

Kuhlthau的模型也指向IR的核心情感特性。该模型给同时代的其他研究者带来了灵感,在不同领域中,他们利用该模型并证实了它的效用。

3.3Vakkari模型

在2001年,Vakkari基于一系列的长期实验研究[5]提出了一个新的模型。该模型显示任务执行阶段和需要检索的信息、检索策略,并将检索到的信息有机联系在一起。如图2所示:

该模型作用:①在与完成任务相关的知识中,领域知识和IR知识之间有着清晰的区别; ②在任务执行与解决过程中,信息利用明显与检索任务的执行区分开。检索被视为信息利用的工具,而检索与相关性评价的结果有助于信息利用。

3.4Wang-Soergel模型

Wang与Soergel基于长期的实验研究,于1998年提出了IR的文献选择框架[6](见图3)。它也是一个阶段模型,比图2的Vakkari模型更详细,在决策阶段应用了11个相关性标准和5个文献价值维度对如何选择检索到的文献进行决策。另外,它成功地将标准、价值与决策和所谓的“文献信息元素”结合起来。“文献信息元素”即作者创建的文献结构、数据元素等重要数据。

3.5Ingwersen的概念模型

Ingwersen在1992年出版的专著[7]中提出了IR交互模型。该模型包括信息检索者的社会-组织环境(情境)(见图4)。

3.6Saracevic的概念模型

Saracevic于1996年提出了信息交互层面的分层模型[8](见图5)。该模型的特点是:①指向三个通讯层。第一层是表面处理层,负责数据源与基于提问式的接口之间的计算数据处理;第二层是交互式认知沟通层,包含在人-机交互期间的感知与感知到的信息需求相关的信息过程,即检索者-提问式-接口之间的对话;第三层被称为“情景层”,是指在某一环境的情景中,与感知到的工作任务有关的信息利用。第一层与信息处理的语言层相关,后两个层次则与信息处理的语义层和语用层相关。②有利于人们对有关交互IR的相关性类型的修正和更准确地领会。

4认知信息检索所取得的主要成就

4.1模型方面

在实验研究的基础上,形成了综合的研究模型,并应用于实验研究。在此期间,模型之间有时互相集成或彼此组合。

4.2理论建构方面

研究者尝试发展和应用更加综合的理论构架,ASK假说、多元表示假说等成为CIR的理论基础。此外,该阶段还提出了其他一些有关工作任务复杂性和工作任务情景的假说。

4.3IR评价方面

设计了新颖的IR评价模型以处理多维相关状态中动态的信息情景,例如受认知观启发而来的交互IR评价包。

4.4相关性研究方面

研究者成功地发现了多种相关类型以及可供使用的相关性标准分类;在与搜索者相关的最佳匹配中,相关性研究也取得了突破;在真实环境中,包括检索者在内的(间接)相关反馈和查询修改算法受到了关注。

4.5分级相关性方面

分级相关性被重新发现,并开展了实验研究。结果得到了许多新颖的、适用于真实的交互式IR研究评价的性能评价指标,从而搭起了与实验室IR研究团体沟通的桥梁。

4.6方法学方面

对IR现象的实验研究大量增加,并应用了一定的方法学。长期的纵向研究方法也得到了应用。此外,研究的对象也从成人扩展到儿童,并且开始在网络环境中进行研究。

5认知信息检索的未来发展方向[1,9]

5.1情境方面

CIR将与人类信息行为集成,从而更加全面地理解CIR。在IR研究中,将人类信息行为的情境考虑在内,正是在该情境中,人与IR系统发生交互作用。

5.2认知研究方面

在认知研究方面,需要继续开展深入研究,以期更多地了解人类-IR系统交互作用的认知动力学。

5.3社会和组织研究方面

在社会和组织研究方面,需要继续展开深入研究,探索人类与IR系统在社会和组织层面上的交互作用。

5.4相关性和评价研究方面

相关性一直是而且今后仍是CIR研究的重点。

5.5情境观和认知观方面

在情境观和认知观的统领下,IR研究与信息查寻不同的研究路径和研究阵营,将从以往相互隔离的状态逐步走向互动与整合,最终可能形成集成的信息查寻及检索研究框架。

6结 语

1977―1982年是IR认知观被确立为一种理论观点的时期,CIR作为一种独立的研究范式得以确立和发展。随后,与CIR相关的重要概念得到了阐述,有关的理论基础和假说也得到发展,建立了相应的研究模型,陆续展开了一系列的实验研究,取得了一系列的研究成果。如2005年出版的两部著作《The Turn: Integration of Information Seeking and Retrieval in Context》[1]和《New directions in cognitive information retrieval》[9],对CIR研究进行了系统的总结。

从长远来看,CIR为具有图书馆人文传统的信息查寻与具有情报学技术传统的信息检索之间建立起互动与沟通的桥梁,寻求让两者在情境中进行有机的集成,从而开创一条新的研究路径,有望发展成为一个新的统一、集成的理论体系,并最终改进IR及WEB系统的设计。

参考文献:

[1]Ingwersen P. Jarvelin K. The Turn: Integration of Information Seeking and Retrieval in Context. Dordrecht:Springer, 2005.

[2]Ingwersen P. Cognitive perspectives of document representation

// Bruce H, et al. (Eds.) [CoLIS4], 2002: 285-300.

[3]Wilson T D. Models in information behavior research. Journal of Documentation,1999,55(3): 249-270.

[4]Kuhlthau C C. Inside the search process: Information seeking from the user's perspective. Journal of the American Society for Information Science, 1991,42(5): 361-371.

[5]Vakkari P. A theory of the task-based information retrieval process: a summary and generalization of a longitudinal study. Journal of Documentation, 2001, 57(1): 44-60.

[6]Wang P, Soergel D. A cognitive model of document use during a research project: Study I: Document selection. Journal of the American Society for Information Science. 1998, 49(2): 115-133.

[7]Ingwersen P. Information Retrieval Interaction. London: Taylor Graham Publishing, 1992.

[8]Saracevic T. Modeling interaction in information retrieval (IR): a review and proposal // ASIS. Proceedings of the 59th Annual Meeting of the American Society for Information Science. Maryland:ASIS, 1996, (33): 3-9.

[9]Amanda S. Charles (Eds.) C. New directions in cognitive information retrieval. Dordrecht; London: Springer, 2005.

[10]Gruzd, Anatoliy. New directions in cognitive information retrieval: Book Reviews. Journal of the American Society for Information Science & Technology, 2007, 58(5):760-761.

[11]Schneider, Wiborg J. Review of : Spink, Amanda and Cole, Charles (Eds.) New directions in cognitive information retrieval Dordrecht. London: Springer, 2005. Information Research, 2006, 11(3):20-20.

[12]Ingwersen P, Martha E W. Cognitive information retrieval// Annual Review of Information Science and Technology, Volume 34, 1999-2000, 2001:3-52.

上一篇:数字化校园管理信息系统建设之问题与对策 下一篇:认知信息检索研究的发展与展望