话题识别与跟踪技术的发展研究

时间:2022-07-05 12:03:06

话题识别与跟踪技术的发展研究

【摘 要】话题识别与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。本文简要介绍了话题识别与跟踪的基本概念、研究任务和测评技术,详细论述了话题识别与跟踪的方法。

【关键词】话题识别;话题跟踪;媒体信息流

0.引言

随着信息技术的飞速发展,互联网变得越来越普及,已经成为人们获取信息的重要途径。话题识别与跟踪(Topic Detection an Tracking, TDT)技术就是在这种情况下产生的。一个TDT系统的功能与一位信息工作者的工作相似,对于一个新的报道能够将其汇总到已识别到的话题中或者将这篇报道视为一个新的话题,它可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其它事件之间的关系。

TDT的概念最初形成于1996年,从1998年开始,DARPA以及后来的美国国家标准技术研究所(NIST)资助并主持了话题识别与跟踪系列测评会议,到2007年TDT共举行过七次公开的TDT任务评测,取得了很好的效果,渐渐使得TDT成为研究的热点。

1.TDT简介

1.1基本概念

TDT 常用到的有以下几个相关的概念:

事件:在研究的开始阶段,事件和话题的含义是相同的,一起事件是指发生在特定时间和地点的事情。

话题:一个话题指由一个事件以及与其相关的事件组成。可以简单地认为,话题是由多个事件组成的集合。

报道:对某个事件的相关报道,这种报道可以是一篇完整的新闻稿,也可以是一个新闻片段。

话题检测与跟踪是指从待检测的按时间顺序排列的新闻文本流中识别出新的话题或是已知某个话题相关的几篇报道从后续的报道中识别出此话题的相关报道。

1.2研究任务

美国国家标准技术研究院(NIST)为TDT研究设立了五项基础性研究任务。

报道切分任务是将原始数据流切分成具有完整结构和统一主题的报道。

首次报道检测任务是在新闻报道信息流中识别出对一个新话题的首次报道。

关联检测任务是裁决两篇报道是否论述同一话题,没有明确话题作为参照,自主地分析报道论述的话题,通过对比报道对的话题模型裁决其相关性。

2.话题跟踪(TT)

2.1传统话题跟踪(TTT)

传统话题跟踪(Traditional Topic Tracking,简写为TTT)主要包括基于知识和基于统计的两种研究趋势。前者的核心问题是分析报道内容之间的关联与继承关系,通过特定的领域知识将相关报道串联成一体。后者则根据特征的概率分布,采用统计策略裁决报道与话题模型的相关性。

基于知识的TTT研究中,比较有代表性的方法是Watanabe[1]面向日本语新闻广播开发的话题跟踪系统。Watanabe通过形如“正如我所提到的……”、“正如我所报道的……”和“正如近期发生的……”等领域知识,检测论述同一话题的相关报道。该方法能够显著提高特定知识领域的话题跟踪性能。

基于统计策略的TTT研究主要借鉴于基于内容的信息过滤。最有代表性的方法是基于分类策略的话题跟踪研究,比如CMU[2]在TTT评测中采用了两种分类算法,分别是k-最近邻(KNN)和决策树(D-tree)。其中,KNN首先根据内容的相关性选择当前报道最相似的k个先验报道作为最近邻,然后根据最近邻所属话题类别综合判定当前报道论述的话题;D-tree则根据训练语料预先构造话题的决策树,该树型结构中的每个中间节点代表一种决策属性,节点产生的分支则分别代表一种决策并指向下一层子节点,决策树的叶节点代表话题类别,输入决策树的待测报道经过逐层节点的判断,最终划分于特定话题类别。KNN与D-tree面临的主要问题是先验相关报道的稀疏性。稀疏性造成KNN算法无法使待测报道的最近邻涵盖大量正确的相关报道,从而根据这些近邻得到的判断往往指向错误的话题模型;而D-tree则在训练过程中无法为每个属性节点嵌入准确的决策条件。

2.2自适应话题跟踪(ATT)

实际应用中的用户对突发性新闻具备的先验知识通常很少,这就造成初始训练得到的话题模型不够充分和准确。因此,一种具备自学习能力的无指导自适应话题跟踪(Adaptive Topic Tracking,简写为ATT)逐渐成为TT领域新的研究趋势。总体而言,ATT的相关研究主要包括两个方面,即基于内容和基于统计的方法。

在基于内容的ATT相关研究中,GE R&D[3]尝试采用文摘技术跟踪话题的发展趋势。其核心思想是分别提取话题与报道的文摘代替全文描述,话题与报道之间的相关性通过文摘之间的相似度进行计算。通常,话题的相关报道在不同历史时期的侧重点不尽相同,因此话题的发展以初始事件为主线,并以后续直接相关的其他事件和活动为延续。基于这一特点,GE R&D将先验相关报道中的事件主体和相关外延以文摘的形式进行提取与组合,根据这种方法构造的话题模型除了涵盖主题信息以外,更注重话题发展的层次结构,从而使跟踪系统更善于检测话题的后续进展。其缺陷在于,GE R&D的跟踪系统没有嵌入自学习机制,话题模型没有利用检测到的后续相关报道自适应地进行更新。因此,当跟踪进行到一定阶段后,系统无法识别最新的相关报道。

基于统计策略的ATT研究主要借鉴于自适应信息过滤。Dragon和UMass是最早尝试无指导ATT研究的单位之一。其跟踪系统每次检测到相关报道,都将它嵌入话题模型并改进特征的权重分布,后续报道的相关性则以新生成的话题模型为评估对象,从而实现跟踪系统的自学习功能。总体而言,这两种方法并没有很大程度地提高话题跟踪系统的性能。其主要原因在于自学习模块对于跟踪反馈不施加任何鉴别地全部用于话题模型的更新,从而导致话题漂移。基于这一现象,LIMSI在原有自学习过程中嵌入二次阈值截取功能,通过设置一个比阈值更高的过滤指标,截取伪反馈中相关度较高的报道嵌入话题更新模块,从而削弱了话题漂移。LIMSI比较了基于静态和动态两种方式的权重更新策略:前者对权重的更新指标乘以经过训练的固定参数;后者将报道与话题的相关度映射为线性函数,特征权重根据线性函数动态确定。该方法的特点在于话题每次更新后,特征权重基于话题模型的条件概率都相应得到改进。

3.总结

目前,话题跟踪的相应研究已经取得很好的效果,但如何更有效地追踪话题的后续发展仍然是该领域有待深入研究的课题。近期更多的研究集中于相关报道的概率分布和话题随时间衰减趋势的估计。未来的研究重心在于如何有效利用新闻语料的时间特征,分析话题发展在时间轴上的分布。

【参考文献】

[1]Y Watanabe, Y Okaxta, K Kaneji, and Y Sakamoto.Multiple Media Database System for TV Newscastsand Newspapers [A]. In: Technical Report of IEIGE[C]. Japan, 1998, 47-54.

[2]J Carbonell, Y Yang, J Lafferty, R D. Brown, T.Pierce, and X. Liu. CMU Report on TDT-2: Seg-mentation, Detection and Tracking [A]. In: Pro-ceedings of the DARPA Broadcast News Transcrip-tion and Understanding Workshop [C]. San Francis-co: Morgan Kauffman, 1999, 117-120.

[3]T Strzalkowski, G C Stein and G B Wise. GE.Track-er: A Robust, Lightweight Topic Tracking System[A]. In: Proceedings of the DARPA Broadcast News Workshop [C]. San Francisco: Morgan Kaufmann,1999.

上一篇:浅谈对我国第三方物流的认识 下一篇:Applying SERVQUAL with API for medical tour...