基于关键词标注的教学论坛内容组织方法研究

时间:2022-06-28 03:53:33

基于关键词标注的教学论坛内容组织方法研究

【摘要】随着网络交互平台在教学活动中的普及,论坛、Blog等成为教学活动中实现知识分享的重要手段。然而,论坛和Blog中帖子的无序性、同类帖子之间缺乏联系等问题日益凸显,成为知识进一步共享的桎梏。因此,以分词和文本聚类的相关理论为指导,研究论坛帖子内容的内在联系,探索在教学平台上对帖子进行分词并通过关键词实现标注,进而把论坛中的所有帖子归纳到知识体系中,对于提高教学平台的服务质量,实现大范围的知识分享和建构具有重要意义。

【关键词】中文分词;知识体系;关键词标注

【中图分类号】G420 【文献标识码】A【论文编号】1009―8097(2009)12―0087―04

一 问题的发现

随着教育技术的发展,教学服务平台在教学活动中发挥着越来越重要的作用,论坛、Blog等成为学习者进行知识分享的重要平台。教育技术的相关研究证明:学习者在论坛(或Blog)中按照自己对知识的理解撰写帖子、参与讨论,有利于学习者按照个体思维习惯对知识点及其内在联系进行梳理,使之规范化、条理化,是一种重要的知识重构过程。在这一过程中,学习者能够使自己的隐性知识显性化,并通过Blog或个人网页与其他同学分享自己对知识的理解。同学之间通过相互分享不同语言形式、不同理解风格的知识树,有助于他们从不同的角度探讨知识,深化个体对知识的理解。因此,学习者参与论坛并组织专题讨论的过程本身就是一个知识建构、知识迁移和知识创新的过程[1]。

然而,在开展具体研究的过程中,笔者发现:随着论坛(或Blog)中帖子数量的增加,帖子的无序性、同类帖子之间缺乏联系的缺陷逐步暴露出来。当论坛(或Blog)中帖子的数量达到一定规模时,学习者常常难以从帖子的海洋中获取所需的内容。这一问题导致学习者在阅读其他同学的帖子和回帖的过程中,只能就当前的主题帖和回帖进行讨论,很难获取针对同一知识点的其他主题帖及相关回帖,使知识的分享和重构受到限制。

针对教学论坛(或Blog)中同类帖子之间缺乏联系、不利于知识分享和社会知识建构的状况,笔者进行了如下设想:“如果以学科教学中的知识点为链接结点,建构教学论坛(或Blog)中各类帖子之间的联系,建立以知识体系为核心的导航系统,过滤掉一些与学科教学相关性低的帖子,就能提高优质帖子的利用率,使学习者在参与讨论的过程中,能够快速地获取相关的帖子。通过论坛中的这种横向链接关系,引导学习者在参与讨论的过程中展开联想,逐步扩大知识面,从而促进学习者从不同的层次和维度思考问题,促使学习者从多个角度实现意义建构。”

尽管Web2.0已经提出了对信息标记和管理的方法、思想,而且Tag和RSS的思路也已在某些Blog中有所体现。然而,由于其标注关键词和超级链接管理都非常注重普适性,并不是面向学科教学的,因此在实际的教学应用中仍存在标注不够便利、对普通学生要求较高、其关键词并没有完全面向学科教学等缺点。

为此,笔者认为:在对教学平台论坛(或Blog)的管理过程中融入知识科学的文本聚类思想,使教学平台能够针对学科知识特点,选取特定的词汇作为特征向量,探讨知识点之间的联系,自动形成基于知识点联系的知识网络图,对于提高教学平台的服务水平、促进学习者积极地进行意义建构是具有重要意义的。

二 系统设计的指导思想

探求解决上述问题的方法,其关键是解决对帖子的分析、聚类问题,即探索一种算法,解决如何依据帖子所反应的知识内容,为大量帖子建立基于知识体系的横向关联的问题。

1 指导思想

鉴于中文信息处理的特点,借鉴中文信息处理的最新成果,在这一任务中,首先要解决的是中文文档的分词问题,其次是如何使文本聚类、并使相关文档建立链接关系等问题。因此,需要解决好以下子任务:

(1)选择适当的词汇库作为基础语料库,并要求学科教师根据学科的特点组织专有名词、专业术语丰富基础语料库,作为实现分词的依据。

(2)选择有效的分词算法,对平台内尚未处理的帖子进行分词处理,并重点关注与学科关系密切的专业术语在帖子中出现的频率和位置。

(3)分析帖子内学科专业术语的作用、频率和权重,利用文本聚类的相关理论,计算帖子与关键词之间的相关度,并把计算结果填写到相关度表格中。

(4)利用动态网站设计的有关技术(或JSP),以可视化的方式呈现帖子之间的逻辑关系。

2 相关研究综述

从当前文本聚类分析的技术发展来看,文本聚类分析已经发展成为一项具有较大实用价值的技术,其目标是在分析文本内容的基础上,按照预先定义的文本类别,使多篇文本被自动归类。由于英文以单词作为语言的基本单位,每个单词表示一个固定的语义,每两个单词之间都有相对固定的分隔符号。因此基于英语文本的聚类分析不需要考虑单词的划分问题。与英文的聚类研究不同,中文以汉字作为文字的基本单位,以词语作为语义的基本单位,不同的汉字被组织起来形成语义不同的词汇,而且在汉语形态的句子中词汇之间没有专门分隔符号。因此在中文环境下实现文本聚类分析的前提是分词,即把一个句子分隔成为若干个词汇,然后再通过分析、计算词汇描述的语义,实现文本的聚类。

从分词算法来看,现有的分词算法有三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。比较上述三种方法,基于词表最大匹配的分词方法具有程序实现简单、开发周期短的特点,尽管其分词准确率仅有95%左右,但已基本能够满足本研究的要求[2]。因此,笔者决定采用这种分词方案。

从文本聚类算法来看,常用的算法有VSM(空间向量模型)、RBF(径向基函数方法)、参考上下文计算相关度的聚类算法(基于本体论词典的发展而形成的)等等[3]。上述算法在文本聚类的研究中各有特色,都产生了重要影响。

由于传统的VSM在舍弃了各关键词汇在文档中的顺序关系之后,可以把文档简单地表征为由关键词汇表示的向量空间中的点的集合。因此,只需通过计算两个文档的向量集内部点之间的距离就能确定文档类别的归属。然而研究发现,以文本向量空间模型对文档进行初步表示以后,用于表达文本内容的向量空间的维数很大,甚至可以达到几万维,导致分类算法的计算量太大,而且过高的维数导致无法准确地提取文档的分类信息。因此,降维是提高分类算法效率并提高其分类准确率的重要手段。在这一思想的指导下,选择特征项并设置特征项在分类算法中的权重是文本聚类中常见的手段。其中文档频率、X2统计(CHI)是其常用的算法,而互信息算法(MI)的理论研究也有重要的应用价值[4]。

基于上述指导思想,针对学科的特点,采取以专业术语和专有名词为特征项的文本挖掘技术,开展知识点与论坛文本之间的相关度研究是完全可行的。

三 系统算法与实施

1 传统论坛的数据结构

论坛中的帖子一般可分为两大类,一类是主帖,一类是针对主帖的回帖。在传统的论坛中,仅需保存帖子的内容及其与回帖之间的关系即可,因此其数据存储结构非常简单。论坛帖子表的存储结构通常如表1所示。

表1 论坛帖子的存储结构

在论坛中,所有帖子都有一个唯一的主ID号,主ID由DBMS自动生成,用于唯一地标记这个帖子。主帖的副ID号为0,用于标记这是一个主帖。而所有的回帖都直接使用被回复帖的“ID号 & 副ID号”作为自己的副ID号。由于副ID号采用不定长的特征码表示方法,因此可利用副ID号区分当前帖子是对主帖的直接回帖,还是对回帖的回帖。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

2 对传统论坛数据结构的改进

为了能够实现对论坛内容的分词处理并记录帖子之间的内在联系,拟在传统数据结构的基础上,增加两个数据表。

(1)帖子关联度表

为了能有效地表示出各个帖子之间的知识关系,把他们组织到一个知识体系中,在上述数据结构的基础上,首先要增加一个新数据表:帖子关联度表。其结构如表2所示。

表2 帖子关联度的存储结构

帖子关联度表的作用是记录帖子与各个关键词之间的关联度情况。

(2)词表

在文本分词和聚类过程中,基础性的工具是分词所依据的语料库。在本研究中,笔者设计了如表3所示的数据表,作为词表的基本结构。

其中,词汇ID可由系统自动生成,是词汇的唯一性标记;词汇内容项用于保存常用的词汇、学科的专业术语和专业名词;频度项用于记载当前研究的文本中对应词汇出现的频度,默认值为0;词汇的权重项则用于说明该词汇在学科中的重要性程度,默认值为1,最高值为5。

另外,为了标明帖子是否已经被分词处理或关联度标注,在帖子表中增加一个新字段“处理状况”。对于已经进行过关联度标注的帖子,标记为“已处理”。

3 准备词表

(1)构造基础词表。构造基础词表的首要任务是选择一个应用较广泛的语料库内容作为基础词汇,并把语料库的内容填写到词表(表3)的词汇字段中。

(2)丰富词表。要求学科教师根据学科的知识体系、教学内容构成、知识点的重要程度等要素,把学科教学中常用的术语、专有名词、具有特定语义的描述方法,添加到词表中。

(3)优化调整词表。为了保证系统标注的效率和专用术语的完整性,首先调整一些虚词、助词的权重为0;然后强化专业术语的权重级别,使专业术语能够优先被标注。因此可根据专业词汇的重要性程度,分别给予2~5级的权重。最后按照“权重(升序)”+“字符串顺序(降序)”对词表排序。

通过上述处理,能保证专业术语和长字符串被优先标注,保证了诸如“北京师范大学”之类的专有名词不会被拆分为“北京”、“师范”、“大学”等多个词汇。

4 文本分析与标注算法

在基于匹配的算法中,相关理论证明,逆向匹配算法的精度较高,出现二义性的概率较低,因此本研究采用了逆向匹配算法[5]。即对一个发帖的内容与词表进行逆向匹配,并把成功匹配的结果记录到词表的相应词汇的“频度”字段中。

(1)获取待处理数据

首先从表1所示的帖子表中获取一条“处理状况”为空的记录,从中提取其字段“内容”的值,存储到变量X中,并记下该帖子的主ID号和副ID号。

(2)逆向匹配处理

按照如图1所示的算法,实现对文档的逆向匹配处理。

图1 逆向匹配处理算法的N-S图

(3)登记匹配结果

首先按照公式“计算值=权重×频度”对词汇表进行计算,求取本帖内容中用到的各个词汇的最终重要性程度,把计算结果存储到词表的“计算值”字段中,最后按照计算结果对词表进行降序排列。通常需要根据帖子的长度、反应词汇重要性程度的计算值等数据,确定哪些词汇及其频度值需要纳入到关联度表(表2)中。在本研究中,笔者选择了公式“文本长度×0.01+词条重要性程度×0.2”作为衡量词条关联度水平的标准。最后在帖子表(表1)中,把本帖的字段“处理状况”标记为“已处理”。

(4)显示分析结果

根据关联度表格中记录的帖子与关键词条的关联度状况,在动态网页中通过文本超级链接、图像Map技术等建立帖子与知识点之间的链接关系,从而把师生在教学服务平台中的讨论情况纳入到教学知识体系中,以可视化的形态提供给学习者。

四 系统运行与评价

1 系统运行说明

由于本算法的目的是对教学平台中的讨论内容进行标注并建立各个发帖与知识点之间的链接,从而有利于学习者在使用教学平台学习过程中开展联想,获取相关知识,所以对信息反馈的实时性要求并不高。因此,为减轻教学服务平台的负担,并不需要实时地分析和运行本程序,只需在系统负荷较低时执行本模块,实现对未处理帖子的标注与链接。事实上,在实际的应用环境中,可把这一工作指定为服务器系统的一个任务,要求这个任务在每天0点左右自动执行一次。

2 运行效果

为了更清晰地说明本算法的运行状况,本文仅以高中物理教学的学生论坛为例进行简要说明。图2是进行关键字标注前的论坛的讨论界面。图3是已经进行了关键字标注后的论坛讨论界面。

图2 没有进行关键字标注前的论坛界面

图3 已经进行了关键字标注后的论坛界面

从图2和图3的对比可以发现,图3的每个发帖后都生成了相应的关键词。通过每个关键词对应的超级链接,可以很快地跳转到对应的页面上,进行相关知识的学习或者参与对相关问题的讨论。另外,为了更清晰地表示知识的层次关系,在本案例中,已经根据主帖中的关键词“匀变速直线运动”把图3所示的帖字链接到了如图4所示的知识网络图内,以便学习者在参与讨论时能够方便地获取其他类型的学习资源,进行相关内容的学习。

图4 匀变速直线运动的直线网络图

3 算法运行状况评价

在实际教学过程中,本算法能够自动地把师生的讨论情况纳入到学科知识体系中,使原本凌乱无序的各类帖子从知识结构的角度被组织起来,从而使学习者可以更容易地获取与自己当前关注的知识点密切相关的各类帖子和各种学习资源,对于促进学习者在个体原有知识结构的基础上进行意义建构是非常有效的。

由于算法基于数据库实现,因此在算法实现中可以充分地利用DBMS自身提供的各类优化算法提高程序的执行效率,从而有效地降低程序开发的复杂度。

本算法允许教师用户在应用系统过程中不断优化其知识体系结构。首先,教师可以在使用系统过程中不断地调整和完善词表,在教师认为必要的情况下,允许他们清除所有帖子的处理状况信息,从而重建所有的关联信息。其次,由于本算法建立在分词算法的基础上,能够在系统运行过程中不断地收集没有匹配成功的单字,研究单字之间是否存在联系,进而发现针对该学科遗漏的重点词汇,并利用它们逐步地完善词表。

4 本研究的不足

尽管在研究本算法的过程中,笔者阅读了大量关于分词和文本聚类分析的文献,但大多数文献的算法都是基于统计学的,算法比较复杂,计算量很大,不能适应教学论坛中并发用户数大、发帖量高而短小的特点。因此笔者对相关算法进行了简化,使之符合以教学平台开展学科教学的特点。然而,这种简化也带来了一系列的问题,导致算法中出现了许多需要完善的地方。与大型的文本聚类算法相比,本算法①在解决系统学习、补充新词,完善词表方面仍有不足,需要教师的人工干预;②仅仅实现了对论坛内容的关键词检索与标注,实现了帖子与帖子、帖子与知识点之间的关联,但对于大型文档之间的关联、分类缺乏更深入的探索;在呈现给学习者的视图中,反应链接关系的表示方式也略显粗糙。

五 总结

对教学服务平台中学习资源的组织与管理不仅仅是信息科学的研究范畴,更需要教育科学、心理科学的指导,使学习资源内含的知识点及其逻辑关系能够体现出知识体系结构及其层次关系,有利于学习者通过联想、图式、平衡等手段实现意义建构。本算法的目的在于解决教学平台中论坛帖子的无序问题,在算法的应用实践中,通过专业术语和专业名词为关键词标注每一个帖子,并自动把帖子挂接到系统的知识体系树内,较好地实现了预期目标。本算法的实施为学习者在参与讨论过程中快速地获取其他相关信息提供了重要支持,无疑在提高学习者的学习效率,促使学习者通过联想、同化、平衡等手段快速建构知识体系等方面都是非常有益的。

――――――――――

参考文献

[1] 马秀麟,白凤凤.基于知识管理的网络学习资源的组织[J].中国教育信息化,2007,19:60-62.

[2] 贺艳艳.基于词表结构的中文分词算法研究[D].北京:中国地质大学,2007.

[3] 丘志宏,宫雷光.利用上下文提高文本聚类效果[J].中文信息学报,2007,(11):109-115.

[4] 李小红,许少华.基于模糊向量和BP网络的Web文本自动分类方法[J].福建电脑,2006,(2):94-95.

[5] 刘新,刘任任.一种基于逆向匹配算法的中文文本分类技术[J].计算机应用,2008,(4):945-947.

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:数字图书馆中自动创建知识库的研究 下一篇:虚拟学习社区中学习者归属感的培养