浏览类表的用户评估

时间：2022-08-29 02:30:29

浏览类表的用户评估

[摘要]Information Studies Taxonomy浏览类表的用户评估采用定性和终端用户介入的方法。评估方案包括真实环境下的浏览练习和用户访谈两道程序。浏览练习题目从终端用户中征集而来，并覆盖类表的所有分面和主题分面中的全部基本大类。浏览练习的具体操作尽量保证客观公正的评估结果。用户访谈围绕类表各个组成部分对浏览功能的支持而展开。浏览练习过程与用户访谈都有相应的软件进行录制。浏览类表评估的理论与实际例子在文献中鲜见，本项目采用的评估方法与设计思路可供借鉴。

[关键词]浏览类表　用户评估　浏览练习

[分类号]G254.1 G354

1　引言

类表的用户评估对于一个浏览系统是至为重要的，它的重要性不亚于类表本身的编制。从浏览系统的功能来看，浏览类表是直接面向终端用户的，它需要通过评估行为来有效地结合用户的需求与爱好，以确保类表的实用性。从编制工作角度来看，评估可以保证类表的基本质量，以避免类表系统安装以后发生大的修改，造成人力、物力资源的浪费。

浏览类表的评估主要有两个不同的目的，一个是衡量类表的资源标引能力；另一个是评估类表的浏览效果。相对于叙词表的成熟发展，浏览类表的评估目前还没有形成一个公众认可的标准与方法，各个评估项目也都是根据各自的评估目的采取相应的办法。类表的资源标引评估多采用定量方法，也就是选用一定数量、有代表性的资源文献，用类表对资源进行实际标引。标引结果的评判可以有两个方法，一个是事先准备标准答案，与标准答案不符的就意味着类表相关部分可能有缺陷(在保证标引结果准确的前提下)；二是由多个标引员对资源进行标引，根据标引员提供的标引结果的一致性程度来找出类表的问题所在。Currier用的是前者，评估小组成员为5个参加者各自要分类的14条数据准备了标准答案。Hawkins，Larson和Caton采纳了后者，他们三个人分别标引了3 000条数据，然后根据标引数据的一致性对类表进行了两次修改与完善。浏览类表评估的实际例子很鲜见，从理论上来说，由于浏览行为的复杂性，一般多推荐采用定性方法。Conway和SligarTM建议用客观标准如查全率、查准率来衡量检索功能，而用定性方法来评估浏览功能，他们提出采用真实语境下的用户检索测试。Lambe持有类似观点，他也主张采用真实环境下的、有代表性的用户检索行为来评估浏览功能。Currier在采用定量方法的同时，鉴于标引数据的量不够大，也结合了用户访谈的定性方法，五个参加者在分类练习结束以后接受了对类表反馈与建议的访谈。

本文论述的Information Studies Taxonomy是为南洋理工大学传播与信息学院信息学系量身定做的一个浏览类表。它为信息学系的老师、学生的教学科研活动提供一站式的信息查询服务。类表由多个分面组成，其中主题分面的编制以杜威十进制分类法、ASIS&T、LISA两部图书馆学情报学叙词表和ERIC教育叙词表为结构库和词库。类表在编制过程已数次征求过用户的意见。本文详细论述类表编制完成后正式进行的一次用户评估，该类表的评估方法既参考了已有的研究成果和实际例子，也结合了本身的评估需要。用户评估取得了不菲的效果，类表因此有了一次较大的改善。

2　评估方法

Information Studies Taxonomy类表评估的主要目的是了解类表通过浏览功能对用户教学科研活动的支持能力，并收集用户对类表的具体意见以进行修改与完善。类表评估方法的设计体现了评估目的。评估方法由两道程序组成：第一道是真实环境下、与用户教学科研活动密切相关的浏览练习，用户为手头的浏览练习题目从安装在计算机上的类表中找出相应的浏览路径。该方法不仅直观，而且客观地收集了类表支持浏览功能的具体数据；第二道程序是浏览练习之后的用户访谈。该方法收集了用户对浏览练习中涉及到的类表部分的具体反馈和意见。用户在完成浏览练习之后对类表有了一定程度的感性认识，也就会有一些想法和要求，访谈提供了一个畅所欲言的机会，可以收集到中肯的意见和建议。

2.1　评估参加者

评估参加者要求具有用户代表性，一共有22位学生和老师参加了此次评估活动。这22位参加者来自信息学系作为一个研究生学院的五个用户群体，他们分别是三个不同专业的硕士生、博士生和老师用户群体。硕士生参加者包括不同年级的老生和新生，博士生和老师参加者代表了不同的研究方向。这些参加者是在被邀请之后志愿参加的。按照定性方法的一般原则，每个小组群体至少要有3位代表，22位评估参加者中有12位硕士生分别来自三个不同的培养方向，另外还有4位老师和6位博士生。

2.2 浏览练习

2.2.1 浏览练习试题　该评估为参加者设计了相应的22份浏览练习试题。浏览练习试题的设计除了要考虑用户人数外，还需要考虑用户的专业背景和做题的疲劳强度。为避免用户过于疲劳而草率地给出答案，每份试题包括两个大题和5―9个不等小题。同时，试题中的两个大题尽量与参加者的专业背景相吻合，也就是说，该次评估为五组参加者设计了五套试题，分别包括4、4、4、4和6份题目，为保证评估结果的公正性，每份题目至少由两个用户完成，也就是说，这5套22份试题实际包括11个大题，每两份试题中有两个同样的、次序相反的大题。

类似于一般试题的设计，浏览练习试题包括两个部分的内容，第一部分是练习背景与要求的文字介绍；第二部分是具体的题目。题目部分先描述语境，比如信息需求者的身份、要完成的任务和目的，然后是具体的信息需求，包括信息需求涉及的主题和资源类型。这些信息需求将通过浏览类表来得以实现。图1给出了一个浏览练习试题例子：

2.2.2　浏览练习题目　22份浏览练习试题中的11个大题、69个小题与类表的宗旨是一致的，它们与教师、学生的教学科研活动密切相关。这些题目全部来自用户的真实信息需求，从17位学生与老师一学期的教学科研活动中征集而来。同样地，这17位学生与老师来自上文提到的5组用户群体，每组用户至少有3位代表，其士生代表有5位，14位硕士生参加者贯穿了不同的学习年级。练习题目的征集采用了个人访谈的方式，访谈收集了具体的信息需求，还包括信息需求前后的故事，也就是语境。

练习题目的挑选考虑了多个因素，一是数量的保障；二是题目要求尽量能贯穿类表所有的子类，尤其是在编制中不太自信的类表部分；三是题目的难易程度，尽量做到难、中、易结合，以求得一个较为客观的评估结果。22份浏览练习试题中的11个大题、69个小题覆盖了类表体系中的所有的分面和主题分面中的所有基本大类。具体地说，每个题目涉及至少来自两个分面的浏览路径，69个题目涉及了主题分面中总共57条

浏览路径。在设计浏览练习题目的同时，也准备了答案。答案的准备不仅包括正确的答案，也包括用户可能产生的各种错误答案和原因，这其实也是一个对类表斟酌、修改的过程。

2.2.3 用户界面类表的安装考虑了浏览练习结果的客观性。一家澳大利亚公司生产的TLE―Equeua被选为支持软件。该软件的好处是不允许用户在一个网页上看到全部的类表结构，如图2所示，参加者必须点击到下一页才能看到下位类目，这样可有利于得到公、正的浏览练习答案。同时，为了避免内容本身对浏览路径选择的影响，没有任何资源链接到类表，参加者所能接触到的就是类表本身。

2.2.4　浏览练习操作程序　浏览练习的操作尽可能地保证客观的评估结果。在操作上，按单人依次进行，在一个全程监控、无干扰的单人计算机房进行，每天上、下午各一个，总共持续了11天。在人文环境方面，制造轻松、愉快的环境，参加者可从与其专业背景相关的试题中任选一份，并有充分的时间阅读试题、适应房间环境和熟悉计算机的使用。相关信息也适时地传递给参加者，如浏览练习的背景情况、试题的说明、浏览路径的含义、网页的点击与翻页等等。同时重要的一点是，为了给参加者一个宽松的心情并收集到全面的浏览练习结果，特意对参加者强调试题不局限于一个单一的正确答案，他们可选出任何他们个人觉得可以满足题目信息需求的浏览路径，既不受数量的限制，也不受题目的限制。但在正式开始练习以前，参加者不允许浏览类表结构。参加者在做题过程中，可提问与答案无关的问题，如题目的进一步解释等，也可寻求计算机使用方面的帮助；他们也可随意地发表意见与看法。

2.3　用户访谈

用户个人访谈在浏览练习结束后即时进行，访谈由10个问题引导。这10个问题根据类表特征和评估目的而设计。前6个问题是关于类表分面、等级结构和类名支持浏览功能的合适性。如前所述，由于目前关于浏览类表的评估还没有一个得到认可的标准可参照，前6个问题是根据从文献调研中总结出的浏览类表的基本特征而设计，这6个问题具体包括类表分面的选择、分面的名称、类目结构的逻辑性、类目深度的合适性、类目概念收集的完整性、以及类目名称六个方面。后4个问题是关于其它方面的，如对类表的印象总分、类表能否支持教学科研活动、对浏览行为的感受，以及一般性的意见与建议。

用户访谈力求一个良好的沟通过程并收集到有深度的数据。用户访谈采取了循序渐进的过程，先从与浏览练习有关的一般性问题人手，比如对浏览练习的感受、遇到的困难等，然后逐渐进入主题。在采访中，根据被访者的反馈对一些问题进行深入探讨。在语言的沟通上，尽量避免专业术语，根据被访者的反应适应地增加一些解释与重述。

2.4　操作时间控制及数据收集工具

如前所述，浏览练习题目和用户访谈问题数量的设计都考虑到了用户的疲劳强度，以避免参加者过于疲劳而得到不客观的评估结果。两项评估工作都期望控制在半个小时以内完成，也就是说，评估的总共实施时间不超过一个小时。但在实际运作中，实施时间根据用户状态和需要而定，用户反应积极的，时间就稍长一些。

数据收集工具的选择保证实用和方便。参加者的浏览练习计算机屏幕行为用Morae软件录制。Morae是个网络版软件，包括管理端和用户端，支持研究者对终端用户行为的远程管理，使用时需配套的摄像头和声音录制工具。Morae软件可将录制下来的文件转换成通用的影像文件，影像显示包括屏幕右下端的用户人像和鼠标的屏幕移动。除了监控软件以外，调查者也在旁边观察参加者的浏览行为，并适时地根据参加者的状态进行交流与讨论，比如，在用户无从下手或为难的时候，询问他们的困惑所在。Morae软件也对现场谈话进行了录音。用户访谈则使用了常见的MP3录音工具。

3　评估结果

3.1 总体评价

浏览练习的总体结果达到了中上，参加者可以轻易地驾驭类表中除主题分面以外的其它分面。22位参加者主题分面的浏览练习准确率达到了70％。22位参加者提供了128个理想答案中的90个正确浏览路径。参加者对类表的平均印象分是3.65分，最高分是4.5分，最低分是2.5分，大部分人都给了4分或4分以上。

绝大部分参加者对类表是持肯定态度的，认为类表围绕老师与学生的教学科研活动、整合了各种信息资源类型；类表分面围绕老师、学生的信息需求并提供了多个浏览选择；类表结构上下有逻辑地自然过渡；类表结构控制在四级以内、符合用户浏览习惯；类名名称清楚。参加者认为类表的主要问题在于分面名称和基本大类的设计。有的分面名称不够直观，在选择分面时他们有时不得不进行猜测，同时参加者建议增加一个分面以支持老师的教学工作。基本大类的划分不够全面平衡，有的方面似乎忽略了，如信息来源；有的基本大类名称过于传统，如读者服务，参加者建议用信息服务取代。

参加者对类表的实际应用价值寄予了乐观的期望，他们认为它的实施应该会大大提高师生的教学科研工作。对于非主题分面的浏览，如资源类型分面，参加者给予了高度的评价，他们认为这些分面切合他们的学习、研究需要，可以帮助他们简单而快捷地获取资源，而Coogle之类的搜索引擎和各种数据库是无法提供如此有效的服务的。参加者对主题分面的浏览有褒有贬。一方面，他们认为浏览可以让他们学到新的知识比如一些词汇和知识结构，发掘出新的信息需求；但需要花费更多的时间和精力，而且还需要相应的背景知识，不如检索来得快速和直接。大部分参加者表示宁愿使用搜索引擎，他们建议提供主题分面中的类目检索以提高查询速度，并增加分面组配检索功能来提高整个类表系统的实际应用价值。

此外，参加者对本次评估工作都表示欣赏，他们认为评估方案构思巧妙，评估活动是一次非常有趣的体验过程，也让他们学到了不少专业知识。

3.2　具体建议与修改

用户评估除了得到用户对类表的总体肯定外，还收集了可观的用户对类表的具体修改意见。参加者根据浏览练习指出类目体系中不合适或者困惑之处，并给出了具体的、有建设性的意见。这些修改意见包括分面、基本大类的选择与名称、上下位类目的过渡，类目的匹配、类目名称的含义、子类目的增、减与类名的完善等。参加者提供的浏览练习答案和屏幕浏览行为记录分析也显示了类目体系中的不合适之处。此外，用户对类表的系统安装也提出了建设性的意见，比如，在分面和基本大类下显示三到五个子类目或加范围注释以帮助定位，建立不同分面和基本大类之间的横向链接等。

类表根据用户评估结果进行了修改，修改涉及分面、基本大类、类目结构和子类目。在分面方面，类表合并了两个分面、分别增加和舍弃了一个分面，修改了四个分面的名称；在基本大类方面，类表增加了一个基本大类，调整了两个基本大类的子类，修改了四个基本大类的类名；在类目结构方面，类表为新增的基本大类新建了两个子类等级体系，合并了一个基本大类中的两个子类，调整了一个子类的上下位类目，调整了一个子类和四个子类目的匹配位置，缩短了一个子类的等级层次，为10个子类目新建了在其它位置的参见。在子类目方面，类表增加了57个子类目包括新建子类中的子类目，舍弃了两个子类目，修改了12个子类目的类名。

4　类表概况

Information Studies Taxonomy类表经评估改善后由六个分面、十三个基本大类和530多个子类目组成。六个分面分别是课程资料、与研究项目有关的资料、参考工具书、教师教学资料、研究小组、和主题。主题分面的十三个基本大类分别是信息学科分支学科与相关领域、信息机构、信息与知识管理、馆藏管理与信息服务、信息与知识组织、信息来源与信息查询、信息用户研究与信息检索系统、信息技术、信息社会、信息产业、信息行业、图书馆学情报学教育、研究方法与学术写作。

5　结语

从该次评估中，可感知浏览类表用户评估的复杂性，即使方方面面的因素都考虑进去了，仅一次的评估对建设一个真正面向终端用户的浏览系统似乎是不够的。同时，如前所述，浏览类表评估的实际例子很鲜见，该类表评估中体现的设计思路以及具体的方法可供借鉴。

浏览类表的用户评估

文档上传者

热门推荐更多>

浏览类表的用户评估

文档上传者

热门推荐 更多>

热门推荐更多>