大学图书馆OPAC系统用户信息搜寻路径的可视化分析

时间:2022-06-29 12:29:35

大学图书馆OPAC系统用户信息搜寻路径的可视化分析

摘要从武汉大学图书馆OPAC系统获取为期18天的访问日志数据并对其进行清洗和处理,基于点击流数据分析框架的路径层开展数据分析。经划分、编码、筛选得到51410条待分析路径并按长度分为3组,利用Levenshtein Distance算法提取各组中心路径,以2D折线图的形式对其进行可视化。可视化分析揭示,用户访问OPAC系统留下的主要是包含3-10个页面的短路径,他们习惯于从图书馆主页进入OPAC,很少使用复杂的搜索方式,倾向于将OPAC作为查阅资源所在馆藏位置的工具。图书馆应考虑从界面和功能两个方面改善OPAC设计,以帮助用户更高效地利用馆藏资源。

关键词 OPAC 信息搜寻 路径 可视化

1引言

尽管网络已经成为人们在日常生活和工作中获取信息的主要途径,但对于高校师生和研究人员而言,他们仍然在很大程度上依赖着图书馆馆藏资源以获取系统、权威的学术信息和知识。联机公共查询目录(Online Public Access Catalogue,OPAC)是图书馆用户获取馆藏图书纸本或电子书的入口。随着网络技术的发展,OPAC的发展已经进入了一个全新的阶段,即“下一代图书馆目录”(Next Genera-tion OPAC):凭借优化的排序算法、分面导航工具、可定制的界面等为用户的信息搜寻过程提供更丰富、更有效的支持;除了通过搜索、浏览等方式获取感兴趣的书目信息外,用户还可以访问在线个人图书馆服务,完成预约、续借等操作。

目前,国内外许多知名高校的图书馆都通过向获得广泛认可的发现服务提供商(如The SummonService、Ex Libris Primo、EBSCO Discovery Service等)购买功能强大的发现工具(Discovery Tools)完成了下一代OPAC的升级。一直以来人们都十分注重开展用户测试以了解OPAC系统的运转情况,从而为系统的优化升级管理提供科学的策略参考。而针对下一代OPAC的用户行为研究在网络学术资源日益丰富的今天更是尤为必要,因为以谷歌学术(https://)和微软学术(ht-tps://)为代表的学术搜索引擎正借助其独特的技术优势逐步取代OPAC成为主要的学术资源获取与检索工具。

在以往的OPAC用户行为研究中,人们较为关注用户与系统搜索功能的交互,包括检索式的构造、搜索结果的查看以及搜索改进等方面,所采取的研究方法主要有调查、实验、访谈、搜索日志等。文章从武汉大学图书馆OPAC系统服务器中提取了连续18天的事务日志,对其中所包含的757万条点击流记录进行了处理与分析,通过路径可视化的方式完整展现了用户使用OPAC系统获取馆藏资源的行为特征,而不仅仅局限于其搜索行为。

2相关研究

2.1OPAC系统用户信息行为研究

早期的OPAC系统用户信息行为研究主要关注两种类型的搜索,即已知书目搜索(Known-itemSearch)与主题搜索(Subiect Search)。这二者各有侧重:已知书目搜索指已知特定书目题录信息(题名、作者或其他字段等),用户利用题录信息进行精确搜索;主题搜索是查找与某个主题相关的全部书目,与前者相比更具开放性。实践中,这两种类型的搜索有时无法确切区分开来,比如说“信息检索”既可作为一个书名,也可作为一个宽泛的主题。主题搜索成功率往往较低,因为它要求用艟哂薪细叩乃阉骷寄埽可以构建精准表达信息需求的查询式,并在搜索失败的情况下对查询式进行重构。后来主题搜索逐渐被关键词搜索所代替,后者的搜索效果更好。

下一代OPAC对发现工具的引入引起了人们对OPAC研究的进一步关注。发现工具可提供类似谷歌的搜索体验,因而获得了大学图书馆用户的青睐。今年的研究发现显示,用户偏好能够接受任何关键词的单一搜索框以及拼写检查与查询式建议等搜索工具;在查看搜索结果时,他们一般只会查看搜索结果的第一页,对相关性排序和搜索结果的质量较为满意。更重要的是,由于具有分面导航和Web 2.0功能,发现工具为下一代OPAC用户的信息探索与发现创造了卓越体验。

分面导航的基础是一组分类层级,每个层级对应着集合的一个方面。就大学图书馆而言,其资源集合的分面一般包括作者、主题、出版年、地区、语种等。用户可以按照任意顺序查看任意个分面,选择其下的分类并浏览其中包含的条目。这种方式大大减轻用户认知负担。在实际应用中,用户确实非常依赖分面来区分不同类型的字眼,他们认为分面导航是一种直观的工具,可以帮助他们洞察整个搜索结果空间并对结果进行精炼。一系列的实证研究表明,采用分面导航的发现工具可以提供更好的搜索体验。不过也有研究注意到用户在利用分面的时候可能遇到困难,因而分面及其所包含分类的设计需要比较谨慎。

Web 2.0功能主要包括标签、用户评论、评分和RSS订阅等,这些功能在下一代OPAC中也起到了重要的作用。“图书馆2.0”(Library 2.0)概念的提出表现了独立用户参与OPAC重构的价值。人们认为用户不仅愿意贡献自己的知识,而且也希望能够利用他人贡献的内容。然而在OPAC系统中提供Web 2.0功能的做法还存在一些争议,许多用户对其有用性存在怀疑,在信息搜寻过程中也不愿用到这些功能,主要是因为用户已经习惯了简单搜索界面,而对更新的Web 2.0技术缺乏必要的了解。

2.2点击流数据分析及路径可视化分析

网络服务器中储存的事务日志分为两种:搜索日志(Search Logs)与点击流数据(Clickstream Data)。前者是由用户与网络搜索系统(如通用搜索引擎和站内搜索应用等)之间的交互而产生的,一般包含用户ID、访问日期和时间、用户查询式、搜索结果页面和结果点击等字段。后者记录的则是用户的点击情况。从用户进入直到离开网站的这段时间内,所有对页面、按钮的点击都被记录下来。因此点击流表现了用户在网站中的导航路径,反映了他们在访问网站过程中所提交的一系列页面请求及其顺序。常见的数据字段包括用户ID,日期和时间,请求方式,请求资源,指引页面(Referring Page)等。

搜索日志分析已经被广泛应用于各种网络搜索系统中的用户信息搜索行为研究,其中也包括OPAC系统。目前获得普遍认可的搜索日志分析框架由简森(Jansen)于2006年提出,包含关键词、查询式和搜索会话三个层次,研究人员一般都会基于其中一个或多个层次开展分析。但是针对OPAC系统的点击流数据分析却并不多见,而且并未形成统一的研究方案。尽管点击流数据在信息行为领域未能得到很好的利用,但在电子商务领域却得到了充分的重视,常用于了解网站的使用情况和用户的导航模式,以及营销策略的有效性和客户购买转化率等。

电子商务领域的研究人员对点击流数据的利用存在着分析方法过多、难以选择的问题。有研究者认为有必要形成“结构化的方法论”,因而提出了一套全新的分析框架,采用“脚印”(Footprint)、“踪迹”(Track)和“路线”(Trail)这三个概念来描述用户访问网站的行为。脚印表示由用户与网页之间的交互产生的一条点击流记录;踪迹是脚印的集合,按照时间先后顺序提供了用户所有的浏览操作历史;最后,对相似踪迹的聚类产生了路线,反映了相似的行为、属性、信仰和价值观。该框架适用于在线购物网站的研究,而对于研究信息内容丰富的在线环境(如OPAC)也具有重要的借鉴意义,因为前者中客户需要找到商品以满足购买需求,而后者中用户需要找到信息资源以满足信息需求。

考虑到人类信息行为的多样性以及点击流数据的格式特征,对以上框架进行了改进,创建了一套更适合信息行为的点击流数据分析框架。该框架包含三个层次,即“脚印”(Footprint)、“移动”(Movement)和“路径”(Pathway)。简单而言,当用户在访问网站时,其每一次页面请求都会在页面上留下一个脚印,将两个连续发生的脚印连接起来便形成一次移动,最后将所有的移动按照时间顺序链接起来便形成了用户访问网站的一条路径。这个新的分析框架已经应用于社会性标签系统用户的信息行为研究,其有效性得到了验证。

相关文献中已有研究专注于路径层次的分析,旨在通过直观的可视化图形揭示用户行为模式。其中,研究人员所采用的可视化方法主要可以分为两大类:一类是对较长一段时间内累积的页面访问统计情况进行可视化,针对用户整体观察其行为特征及变化趋势;另一种则是首先对单个用户的访问路径分别进行可视化,然后依据机器可读表达对它们聚类,挑选处于聚类中心的路径作为代表开展分析。

对于反映整体统计情况的可视化方法,人们一般会采用不同形式的树状图来描绘网页之间的层级关系,由连接线的方向和粗细表示访问量的流向和大小。除此之外,色谱图(Stratogram)、自组织地图(Self-organizing Map,SOM)以及社会网络图等都曾用于展示用户访问情况的累积结果。这一类可视化方法具有明显的缺点,因为统计异常值和偏差会导致研究人员忽略用户行为上的细节差异。另一方面,以单个访问路径为展示对象的可视化方法则主要采用拓扑图,其中结点表示页面,可添加序号表示页面访问顺序,连线表示跳转关系。特别值得一提的是首创的足迹图(Foot-step Graph),这是一种基于方格网中折线图的可视化图形,纵轴标记为页面类型,横轴标记为时间,通过折线反映用户在页面之间转移的方向与耗时。该可视化方法可转换为机器自动识别模式,但无法揭示页面在站点结构中的上下级关系。

3数据与方法

选取武汉大学图书馆OPAC系统作为研究对象。该OPAC于2009年由Ex Libris Primo开发,是典型的下一代OPAC,主要服务于武汉大学的师生。用户可以在系统中进行简单搜索、高级搜索、Aleph命令搜索以及分类浏览。OPAC主页上默认为简单搜索,而图书馆主页上也可以在“馆藏目录”选项下M行OPAC简单搜索,此外系统还为每一种搜索方式额外提供了独立的入口界面。

在OPAC搜索结果页面上,用户可以利用各种工具查看结果条目并且对搜索进行精炼。除了基本的排序和格式选择功能外,他们还可以通过在搜索结果中再次搜索或是采用右侧的分面导航栏来限定搜索范围。其中默认的分面包括主题词、年份、语种、馆藏、分类、作者、关键词以及格式。点击搜索结果条目会将用户带往资源详情页面,从而查看到简介、目录、馆藏位置等信息。资源的完整记录可以加入收藏、保存或是邮件发送。

3.1数据收集

数据来源于武汉大学图书馆服务器中为期18天的OPAC访问日志,即2014年10月13日O:00:00至2014年10月30日23:59:59,为学期中的常规时段。原始日志文件共包含7574170条记录,以W3C扩展日志格式存储。考虑到研究的需要,从中提取了6个基本字段,分别为:

・用户IP:用户的IP地址,用于区分不同用户;

・访问日期:页面请求发送的日期;

・访问时间:页面请求发送的具体时间;

・请求类型:客户端对服务器的请求类型,主要为GET(获取数据)和POST(提交数据);

・资源地址:用户请求访问资源的URL;

・协议状态:服务器返回的HTTP状态码,如404和200等。

3.2数据准备

(1)数据清洗。

数据清洗是网络日志分析中的重要环节,对原始日志文件的清洗主要是为了去除其中的崩溃记录和冗余记录。前者是由服务器记录数据时发生错误造成的,可以通过对每个字段依次进行排序来快速识别,格式异常的数据会集中在字段列的顶部、底部或是聚集在一起。后者是与研究无关的数据,无法反映用户的信息行为,过滤掉这些数据可以极大压缩文件的大小,从而提高分析效率。数据清洗的具体步骤如表1所示。经过数据清理后的日志文件共包含800320条有效记录。

(2)访问路径划分。

由于本研究主要关注路径层上的用户行为特征,路径划分是数据准备阶段的必要环节。路径包含了一次访问中用户与系统之间的所有交互活动,从用户进入到离开OPAC的整个过程中所有的访问请求按时间顺序排列起来就构成了一条独立、完整的路径。在划分路径时,采用了搜索日志分析中的搜索会话划分的方法,即不同用户IP的记录属于不同路径;对于同一用户IP的记录,若两条记录之间的时间间隔超过30分钟这个阈值,则也属于不同路径。借助Python程序对用户访问路径进行抽取划分共得到104080条路径。但值得注意的是,这其中也包括了非人为路径,即由计算机(如网络爬虫)产生的路径,其特征是包含了大量的记录。因此将阈值设为100,即记录数超过100的路径都视为非人为路径,将其去除后共得到103542条人为路径。

(3)访问路径表示。

OPAC用户的访问路径在本质上可以表示为页面的访问和页面之间的跳转,因此需要考虑的关键元素主要包括页面的类型和跳转之前在页面上耗费的时间。耗时情况可以根据两条相邻记录的时间差来计算,而页面类型则需要人工干预标注。基于武汉大学图书馆OPAC的系统结构与页面功能,最终分析了5大类型的页面,分别为:

首页(H):OPAC系统首页;

搜索界面(S):该路径选择的搜索方式,如简单检索、高级检索等;

搜索结果列表(L):搜索结果返回的展示页面;

资源详情(D):用户点击结果条目后跳转到的详情页面;

个人图书馆(I):用户登录后个人信息页面。

每种类型的页面都允许用户采取相应的行动实现特定的功能,而页面类型可以通过URL中的关键字符串来进行识别。附录列出了5大页面类型及其子类型,对每个子类型都分配了一个专有编码,然后利用Python程序自动解析日志中每条记录的URL并将编码添加到新字段中,这样一来路径就可以采用编码串来指代,如[‘H1’,‘S1’,‘L2’]。

4分析与结果

榱私沂居没Х梦事肪兜奶卣鳎本研究采取的方法是从以上人为路径中找到具有代表性的路径,以可视化的形式将其发生模式展现出来。在典型路径的提取过程中,首先删除了长度小于3个页面的超短路径(所能反映的用户行为非常有限),从而得到51410条路径。由于路径长度差别较大,须对这些路径按其长度进行分组,通过计算最小平均编辑距离来确定组内中心路径,将其作为典型路径。计算接近中心性(Closeness Centrality)是在一组对象中寻找中心(最具代表性的对象)的常用方法,而接近中心性和平均距离成反比关系;因此,平均距离最小的路径是同类路径中处于中心地位的一条,可以很好地反映同类路径共同特征。

最小平均编辑距离的计算采用的是Levensh-tein Distance算法,这是一种判断两条任意长度的字符串之间的相似性的方法,反映的是两个字符串之间相互转换所须增删改操作的最小次数,且不要求两字符串等长,可以有效地用于两个短字符串,或一长一短两个字符串之间。由于访问路径长度不一,大部分都很短(77.29%的路径含有不超过10个页面,且所有路径包含页面数量平均值仅为2.48),因此使用Levenshtein Distance比较合适。以下是用Levenshtein Distance计算路径间两两距离、寻找中心路径的简单示例。

示例:给定若干路径,根据以下方法判断其中典型路径。

步骤一:将路径表达为数组。

Path 1一[‘HI’,‘S1’,‘L2’]

Path 2一[‘HI’,‘11’,‘14’,‘11’]

Path 3一[‘H2’,‘L1’,‘L2’,‘D2’]

步骤二:计算数组两两之间平均距离。

Path 1 Path 2 Path 3

LD(1,2)=3 LD(2,1)=3 LD(3,1)=3

LD(1,3)=3 LD(2,3)=4 LD(3,2)=4

Avg=3 Avg=3.5 Avgv3.5

步骤三:选择典型路径。

因为Path 1具有最小平均距离,所以典型路径为Path 1。

通过反复比较对路径长度不同划分条件下类中心编辑距离的方差发现,以页面数10和20作为划分节点时,各类路径呈现出最具代表性的特征。因此,将51410条待分析路径分为3组,它们包含页面数分别为3~10(Cluster 1),10~20(Cluster 2)以及20以上(Cluster 3),这三组所包含的路径数量分别为39736、6439、5235。在每组中分别取最小平均编辑距离的那条路径作为中心路径,最终得到3条用户访问OPAC的典型路径(Typical Paths,TP):

・TP 1:

[‘L1’,‘L1’,‘112’];

・TP 2:

[‘L1’,‘L1’,‘L10’,‘L2’,‘L2’,‘L9’,‘L9’,‘D1’,‘L2’,‘L2’,‘L2’,‘L2’];

・TP 3:

[‘L1’,‘L1’,‘L9’,‘L2’,‘L2’,‘L10’,‘L10’,‘L2’,‘L9’,‘Ill’,‘11’,‘14’,‘15’,‘L1’,‘L1’,‘L1’,‘L1’,‘L10’,‘L2’,‘L2’,‘L1’,‘L1’]。

对这3条典型路径分别进行了的可视化表示,采用的是2D折线图的形式,横轴表示时间,用户纵轴用以区分页面类型,每条路径都是由节点和箭头组成的。需要指出的是,所有的典型路径都是从简单搜索结果页面(L1)开始的,对应的前一步是在武汉大学图书馆主页上进行简单搜索,但是该主页不属于OPAC系统,因此未被记录在OPAC访问日志中。

Cluster 1中最具代表性的用户访问路径TP 1如图1所示。在该路径中,用户访问了3个页面,时间总共持续了4分14秒。结合附录中的页面类型编码,对此路径进行如下描述:用户在武汉大学图书馆主页上的“馆藏目录”选项下进行简单搜索进入OPAC,首先到达“多库检索结果”页面(L1),此时用户需要在“西文文献库”和“中文文献库”中做出选择,选定数据库后进入相应的搜索结果页面(L1);在第一个搜索结果页面上,用户花费了将近4分钟的时间查看结果条目,最后直接退出了系统(I12)。需要特别说明的是,OPAC系统会在搜索结果页面上根据鼠标悬停弹出资源的馆藏位置,这样用户不一定需要进入资源详情页面。因此,这很有可能是一条线性的查寻路径,用户找到所需资源的馆藏位置后,信息需求得到满足而离开系统。

图2展示了Cluster 2中的典型访问路径TP2。此路径属于中等长度路径,包括了12个页面,时间总共持续了6分23秒。该用户同样是在图书馆主页上搜索进入OPAC,经由“多库检索结果”页面(L1)到达搜索结果结果页面(L1),在花费了1分钟左右查看结果条目后决定对搜索进行精炼(L10)。然而这并没有满足用户的需求,他又连续进行了两次简单搜索(L2),并在第二次搜索结果页面上进行了两次翻页操作(L9),最终进入资源详情页面(D1)。遗憾的是,无法确定该资源是否满足了用户需求,因为紧接着他又连续多次进行简单搜索(L2),这一系列动作可能是希望找到更多相关结果,也可能是因为结果不理想而调整查询式。但可以肯定的是,TP2与TP1相比表现出明显的探索性,用户以多种形式与搜索结果发生交互。

在图3中可以看到Cluster 3的典型访问路径TP3,持续时间比TP2稍长,为7分14秒,但是用户一共访问了22个页面。在该路径中,用户的访问大致可以分为三个阶段。首先,在前面的3分多钟时间里,他从图书馆主页搜索进入OPAC(L1-L1),经历了一个非线性的搜索过程,多次执行翻页(L9)、精炼(L10)、查式重构(L2)等操作。接着,用户中断了搜索行为,转而登录个人图书馆(I11),默认进入个人信息页面(I1),选择查看了个人借阅信息(I4)和个人借阅历史(I5),这一行为很有可能是因为刚才的搜索并不顺利,他突然想起以前曾经借阅的资源可能会提供一些有用的线索。最后,用户又回到图书馆主页进行了多次搜索(L1-L1),其中也穿插了结果精炼(L10)和查询式重构(L2)。与TP2一样,TP3也是一条探索路径,用户采用了多元化的搜索策略,其中额外利用了个人图书馆中存储的信息。

5讨论

5.1界面设计

从用户的实际访问情况来看,武汉大学图书馆OPAC系统在界面设计上存在一些冗余之处,有时可能影响用户搜索资源的效率。武汉大学图书馆将馆藏资源与电子期刊、数据库等资源区分开来,专门提供OPAC搜索,而且对各种传统搜索方式进行了区分。然而这些搜索方式的独立入口界面(S)使用率极低,用户甚至很少从OPAC主页上开始搜索,而是从图书馆主页上的“馆藏目录”搜索进入OPAC系统,这一过程中还需要完成语种选择才能查看到搜索结果。这样做无疑增加了搜索活动的复杂度,用户可以明显感受到搜索流程的中断,也可能对图书馆网站界面和OPAC系统界面的视觉设计差异产生疑惑。

在这一点上,国外许多大学图书馆(如哈佛大学图书馆、斯坦福大学图书馆等)则采取了不同的做法,他们提供的是单一搜索框的整合式搜索,用户可以直接提交任何查询式,由系统识别其意义,再从多个来源聚合搜索结果,返回到统一的界面上,同时将结果类型作为一个分面允许用户选择所需类型。这样做更加符合新一代互联网用户的使用习惯,作为出生在数字时代的年轻人,他们早已对通用搜索引擎(如Google、Amazon)的单一搜索框习以为常,能够熟练运用自动完成、查询建议等工具。因此,武汉大学图书馆可以考虑整合其搜索界面,减少语种选择、查询式类型选择等冗繁的搜索步骤,将精力放在简单搜索的交互和算法设计上。

5.2功能设计

以上讨论根据路径长度的不同对所有路径进行了分组,其中Cluster 1的规模最大,包含了77.29%的路径,也就是说绝大多数路径都是页面数为3~10的短路径。从TP1的可视化视图来看,武汉大学图书馆OPAC系统主要起到了了解资源馆藏位置的作用。也就是说,用户已经通过其他手段找到所需资源的题录信息,如书名、书号等,而在OPAC中搜索这些已知条目的目的就是在现实图书馆内对其进行定位,从而获取物理资源。从某种意义上讲,OPAC只是被简单地用作查阅工具,这并不符合下一代OPAC的特征。

虽然TP2和TP3的可视化视图表现出一定程度的探索性,但是频繁的交互并不一定是有复杂或模糊的搜索任务造成的。从时间轴来看,用户在每个页面上花费的时间都不算太长,大多不超过1分钟,这段时间或许足够用户大致查看页面内容,不过如果需要对这些内容进行理解、思考探索策略,用户将需要更多的时间。此外,用户访问的基本上都是搜索结果页面,极少进入资源详情页面,前者仅提供了书名、作者、年份、出版社等有效信息,这对于用户深入了解搜索主题帮助很有限。因此,即使用户多次精炼结果、翻页、重构查询式,这些行为很可能是他们在应对系统功能缺陷的表现,例如结果匹配和排序不理想、查询式构建工具缺失等。

另外特别值得一提的是,武汉大学图书馆OPAC系统为用户提供了个人图书馆,方便他们利用传统的图书馆服务,包括借还书、续借、预约、提醒等。目前个人图书馆只是起到了个人信息管理工具的作用,但是如果能够引入Web 2.0元素,用户体验将得到大幅提升:基于用户借阅或收藏的资源对搜索结果进行个性化地排序;基于相似用户的借阅或收藏情况推荐可能有价值的资源;对用户个人行为进行聚合形成一些总体的行为趋势。

6结论

以武汉大学图书馆OPAC为例对用户访问下一代OPAC系统的典型路径进行了可视化分析。具体来讲,对来自武汉大学图书馆的为期18天的OPAC访问日志进行了采集、清洗和处理,将分析重点放在路径层次,依次实现了路径的划分、编码表示、分组、中心提取以及可视化表示。分析结果显示,用户访问OPAC系统留下的主要是包含3~10个页面的短路径,他们习惯于从图书馆主页进入OPAC,很少使用复杂的搜索方式,倾向将OPAC作为资源馆藏位置的查阅工具。以上研究发现及其讨论对大学图书馆OPAC改善其界面和功能设计具有重要的启示作用。在后续研究中,将进一步探讨组内中心路径的提取,试图采用更理想的路径间距离计算方法,同时考虑页面跳转和停留时间这两个因素,也会将网站页面层级关系纳入权重计算考量。

上一篇:为生命“争分夺秒”!我国地震预警重大工程年底... 下一篇:我们每天吃的酱油可以防癌?