关于出入境检验检疫关联危害因子自动侦搜与处理技术的研究

时间:2022-07-30 08:38:47

关于出入境检验检疫关联危害因子自动侦搜与处理技术的研究

摘 要

面对我国持续增长的超大规模出入境活动活动态势,境内外的危害源(疫情疫病、有害物质、恐怖因子等)和突发及孕育的危害事件对巨量进出境对象造成的威胁。本文基于出入境检验检疫的专业知识技术,采用自然语言处理、信息抽取、机器学习和文本挖掘等技术,建立在网络环境条件下的出入境检验检疫关联危害因子信息的自动侦搜与处理系统。该系统能实时捕获全球危害事件发生情况,并对其进行自动侦搜和分析处理,将各种异构信息集成为格式化的可供用户理解的知识,有效支持检验检疫人员对境内外突发或正在接近临界发生的危害事件实施早期预警报道和快速反映,最大程度的保护国家卫生安全、保证国家进出口产品的品质。

【关键词】自然语言处理 信息抽取机器抽取 文本挖掘

本文将主要分析基于出入境检验检疫的专业知识技术和关联危害因子数据库,运用信息检索技术对散布于网络条件下的跨学科跨专业的具有跨境危害后果或潜在后果的出入境检验检疫安全关联危害因子信息的自动侦搜技术和基于检验检疫专业知识技术与信息处理技术的结合,对获取的关联危害因子信息以及相关危害事件的信息抽取技术。

1 信息抽取

1.1 信息抽取系统简介

信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factual information)。

信息抽取系统旨在从文本中直接获得用户感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题,往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。因此信息抽取只能算是一种浅层的或者说简化的文本理解技术。

1.2 信息抽取的主要方法

1.2.1 命名实体识别

命名实体是文本中基本的信息元素。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。

命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。但是基于规则的方法往往依赖于具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。

1.2.2 句法分析

通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术。

但是部分分析技术只能使信息抽取系统的处理能力达到目前的水平(F-指数小于60%),要想使其性能有大的飞跃,必须探索更有效的分析技术。

1.2.3 篇章分析与推理

为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。

由MUC-6和MUC-7对信息抽取系统部分篇章处理能力(即指称短语的共指消解)的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究与改进。

1.2.4 知识获取

信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性决定了信息抽取系统中用到的主要知识是所谓的浅层知识。因此知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。

领域知识获取可以采用的策略通常有两种:手工+辅助工具(图形用户接口);自动/半自动+人工校对。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的真正出路。

2 相关技术介绍

新闻报道出入境检验检疫危害事件的页面绝大多数都是用自由文本描述的。因此如何从自由文本中抽取感兴趣的事实信息是系统实现的关键点。

2.1 隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model)属于统计模型的一种,它应用于文本处理则是在八十年代后期之后。

在隐马尔可夫模型中,状态是无法被直接观察到的,但是依赖于状态的输出值可以被直接观察到。每个状态在可能的输出值上有一个概率分布。因此由隐马尔可夫模型生成的序列可以揭示出关于状态序列的信息。

一个隐马尔可夫模型可以看作一个五元组。其中S是观察状态集,即可以直接观察到的变量的集合;是隐藏状态集,即隐藏状态变量的集合;是 的状态转移矩阵,即图结构中各个观察状态间的转换概率,若观察状态之间无边相连,则转移概率为0;B是 的发射概率矩阵,即观察值对应可能隐藏状态的概率表;是初始状态概率矩阵。其联合分布概率的形式为:

隐马尔可夫模型的缺点主要在于作为一个生成模型,它必须在序列的观察、输出(隐状态)对上建立联合分布。这限制了隐马尔可夫模型在复杂问题中的应用。

2.2 最大熵马尔可夫模型

最大熵原理是在1957年由E. T. Jaynes提出的。其主要思想是,如果仅仅知道未知分布的类型时,应该默认选择符合该类分布中熵值最大的概率分布。根据最大熵原理,可构造最大熵分类器:

最大熵马尔可夫性模型相对于隐马尔可夫模型而言主要的优点在于其为判别模型。在最大熵马尔可夫模型中可以比在隐马尔可夫模型中包含更多复杂的特征。

但是最大熵马尔科夫模型以及其他基于状态转换分类器的非生成有限状态模型(如决定马尔科夫模型)都有一个共同的缺点:标记偏置问题,即竞争只存在于离开某个状态的转换中,而不是在模型内的所有转换中,从而导致模型对存在较少可能转换的状态的偏置。因此模型中稀疏连接的状态无法被很好的处理。

2.3 条件随机场

条件随机场是Lafferty等人于2001年提出的无向图概率框架模型。它是一个判别模型,包含了所有最大熵马尔可夫模型的优点。并且该模型从原理上解决了标记偏置问题。

2.3.1 条件随机场的定义

根据Lafferty et al,2001条件随机场的定义如下:令 表示一个图,其中,即被中的顶点索引。如果在给定的情况下,随机变量 在该图结构上满足马尔科夫性:,表示和在图G中相邻。则是一个条件随机场。

由定义可知,条件随机场全部依赖于观察值,同时因为其为判别模型,直接对条件概率建模。

2.3.2 条件随机场的推理

根据随机场的基础理论,有:

其中势函数对应于图结构中的每个最大团(clique)。势函数的具体形式可以使用最大团模板(clique template)根据具体的图结构来确定。本文中以线性结构条件随机场为例,势函数形式为:

因此线性条件随机场的具体形式为:

3 系统未来发展规划及难点

侦搜模块目前对相关信息的抽取则较为简单,并且对不同类型的网站适应能力有限。

考虑到未来系统的需求以及当前侦搜模块的不足之处,侦搜模块后期发展主要围绕以下几个方面进行规划。

3.1 危害事件分类

对危害事件的分类大致可按两种思路实现:一是可将其作为文本分类问题处理。对该类问题已经有较为成熟的机器学习模型,如朴素贝叶斯分类器或最大熵分类器等。缺点是无法达到非常高的准确度。二是考虑先抽取该危害事件中的符合性条件,后根据关于该符合性条件的先验知识(如已知该符合性条件是一种只有人类会感染的病毒)来判断危害事件的类别,这种方法可作为第一种方法的补充与确认。缺点在于需要在数据库中录入关于所有符合性条件的先验知识。

3.2 提升侦搜引擎泛化能力

目前侦搜系统中的通用信息抽取器采用基于规则的方法,限制了系统的泛化能力。

未来的侦搜系统中应该包含一个基于高效、精确的机器学习算法的通用信息抽取器,它必须能够处理各种形式的网页并从中抽取信息,同时还要具有一定的信息综合、对比及判断能力。

3.3 新危害因子的自动发现

侦搜模块进行危害事件侦搜的基础是已知的符合性条件列表,侦搜引擎根据各符合性条件的名称按照一定规则在自然语言文本中进行匹配。然而随时可能出现新的符合性条件。

如何及时准确的发现这些新的符合性条件是该系统后续研究的重要问题。未来的研究重点应该集中于通过自扩展的方式自动发现新的危害因子,以补充和维护危害因子数据库。

3.4 “暗网(Hidden Web)”的处理

据统计网络上大部分内容是不能通过静态链接搜索获取的,特别是大部分隐藏在搜索表单之后的页面,只有通过用户键入一系列关键词才可以获得。这些页面被称为Hidden Web,即通常所说的“暗网”。

由于当前的搜索引擎只能部分索引到、或不能在它们的返回结果中显示这些页面。而正是由于Hidden Web的存在,目前所有搜索引擎(包括百度、google等)搜索到的信息只占人类所有信息很小的一部分,大量的信息仍然处于“未知世界”中。如何有效获取这些隐藏在“暗网”中的信息是当前信息检索技术的难点之一。

参考文献

[1]Gaizauskas R,Wilks Y, Information Extraction: Beyond Document Retrieval[J].Journal of Documentation,1997.

[2]李保利,程玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10).

[3]Sager N,Natural Language Information Processing[S].Reading, Massachusetts:Addison Wesley,1981.

[4]Lawrence R.Rabiner. A tutorial on hidden markov models and selected applications in speech recognition[C].In Proceedings of the IEEE,pages 257-286,1989.

[5]California.McCallum, A. Freitag,D., & Pereira, F. (2000). Maximum entropy Markov models for information extraction and segmentation[C].Proc. ICML 2000 (pp. 591-598).Stanford.

[6]John Laferty. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C].pages 282-289. Morgan Kaufmann,2001.

[7]Hanna M.Wallach. Conditional random fields:An introduction[J].Technical report,2004.

[8]Roman Klinger,Katrin Tomanek.Classical probabilistic models and conditional random fields[R].2007.

[9]Fei,Sha and Fernando Pereira. Shallow parsing with conditional random fields[C].pages 213-220,2003.

[10]Lev Ratinov and Dan Roth. Design challenges and misconceptions in named entity recognition[C].In Proceeding of the CoNLL-09. pp 147-155, 2009.

[11]顾雪峰.基于动态粒度思想的实体关系识别方法研究[D].2006.

作者单位

无锡中航恒信工程管理咨询有限公司 江苏省无锡市 214000

上一篇:网络监控系统中音视频实时流同步技术的研究 下一篇:电子半导体器件制造中直拉单晶硅氧浓度的控制