基于自动采集技术建立纺织品召回案例数据库

时间:2022-07-30 05:15:17

基于自动采集技术建立纺织品召回案例数据库

我国的纺织品服装贸易面临着越来越多的技术性贸易壁垒。2008 ― 2010年,对华召回纺织服装产品的数量占据了欧盟非食品类商品快速报警系统网站(RAPEX)累积召回纺织服装总量的50%左右。据国家质检总局统计,2009 年,我国有34.3%的出口企业受到国外技术性贸易措施不同程度的影响,造成直接损失574.32亿美元。因此,建立技术性贸易壁垒快速反应机制对引导我国纺织企业在国际贸易中健康发展显得尤为重要。

技术性贸易壁垒预警机制的核心,关键在于能否及时掌握国外市场信息动态,因此对于相关信息及时、准确地采集及分析就显得至关重要。召回案例是各种因素综合作用的结果,具有一定的代表性和预兆性。因此及时了解和分析相关进口国的动态召回信息,并建立召回案例数据库,具有重要的意义。

目前,国内关于召回案例的研究主要倾向于对一段时间内召回案例进行统计分析,但关于如何建立召回案例数据库几乎没有提及。本文以RAPEX网站公布的召回信息为例,采用自动采集技术、文本信息预处理技术,探讨利用计算机技术建立纺织品服装召回案例数据库的方法,以期为纺织品技术性贸易壁垒预警机制的建立提供技术支持。

1 纺织品召回信息网页数据自动采集技术

发达国家实施的召回案例一般都会在官方指定网站上予以公示,比如欧盟非食品类商品快速报警系统网站(RAPEX)、美国消费者安全委员会网站等。网络信息通常以HTML形式的Web网页存在于互联网中,要想充分利用这些信息,实现信息分析与处理,首先必须要将这些信息和数据从Web网页中采集出来。

网页数据自动采集技术是近年来计算机应用新兴的课题之一,目前已有一些成功开发应用的软件,比如Soukey、火车采集器等。本文采用火车采集器技术,根据互联网的特点,通过 5 个步骤实现对互联网中纺织品召回信息的自动采集(图 1)。

1.1 网站选定

网站选择的原则,首先要保证网站的信息内容与研究问题具有相关性与独立性,其次要考虑信息内容来源的可靠性、覆盖面以及信息更新的及时性等。

欧盟纺织品召回信息基本上都是通过RAPEX网站,是欧盟各国相关职能部门和市场监督部门组成协作网络的基础,该网站信息具有及时性、可靠性、全面性和权威性。因此笔者认为,要想及时了解欧盟纺织品召回信息,RAPEX网站是最佳的选择。

1.2 确定网址采集规则

网址采集规则,是指根据要采集内容的网页在网站结构中所处位置,制定相应的规则来采集网址。网址采集深度的选择恰当与否关系到信息采集的效率,一般情况下,确定网址采集深度应遵循采集深度最小原则。对于动态网址链接页面的内容采集,由于必须先从一个主页面上动态采集得到网址,因此采集深度至少为 1。

RAPEX网站每周更新召回案例的,所以依此可确定采集周期。基于网站特点,设置网址采集最小区域,在该区域的所有链接都是召回案例链接,都需要采集,采集深度设置为 1。

召回案例实时数据的采集规则与召回案例历史数据的采集规则相似,仅增加两项规则,即任务调度规则(采集任务被调度运行的时间规律)和检测重复网址规则(检测到重复网址立即停止采集)。

1.3 制定内容采集规则

内容采集是指通过制定一系列规则,分析、提取HTML编码中的内容。制定内容采集规则时,首先要为需要采集的内容添加标签,并确定是否采取循环采集方式;其次,制定规则采集相应标签下的内容,并对采集内容进行初步处理和保存方式的设定。

RAPEX网站的召回案例信息是以表格形式公布于网页,每一召回案例可看作为一个采集的最小单元。网站的召回案例信息包括 6 项内容,分别为“No. Ref.”(召回编号)、“Notifying country”(召回国家)、“Product”(召回产品)、“Danger”(危险性)、“Measures adopted by notifying country”(召回国家采取的措施)、“Products were found and measures were taken also in”(同类产品在其他的国家召回情况和采取措施)。本文将这 6 项内容分别设置标签,对其中的内容进行循环采集,每一个循环匹配项添加为新记录,从而形成结构化的数据文件。而采集纺织品召回案例信息,还需添加内容排除规则,使得标签“Product”下的采集内容必须包含“Category:Clothing”。

1.4 内容

信息数据采集后,需要将采集的信息数据导出,生成便于进行数据操作的文件,或者直接导入指定数据库中。

从RAPEX网站上采集的信息数据,可以分别以csv格式保存和直接导入数据库。以csv格式保存的文件可以利用Excel软件进行分析、处理,直接导入数据库的信息作为原始信息以便查询。

1.5 任务调度

任务调度功能可以实现召回案例数据库的及时更新,以及控制相应任务何时运行何时终止。任务调度的相关设置取决于网站更新时间以及对信息实时性的依赖程度。RAPEX网站是每周五本周召回信息,所以可以每周六调度运行一次相应的采集任务,以便于相关信息的及时采集与分析。

2 纺织品召回信息预处理技术

自动采集的信息内容一般为数字或文本形式,因此对信息的处理技术也相应地分为数字信息处理技术和文本信息处理技术。目前,对数字信息或者文本信息进行分析处理已经有很多成熟的方法,如假设检验、回归分析、数据挖掘技术中的关联分析、决策树分析、聚类分析、神经网络模型等,但直接对文本信息进行处理的方法尚未见报道。

文本信息语言是计算机无法理解识别的人类语言,计算机只能将文本信息作为字符串来识别。因此,提取特殊的单词或者结构作为特殊字符串,通过计算机进行识别并标识是处理文本信息的主要思路。本文选用Excel软件进行文本信息的预处理。

IF(IFERROR(FIND(特征词,文本信息所在单元格),0)=0,0,1) (1)

公式(1)的功能主要用于检测文本信息中是否包含某特征词,如果有,将其标识为 1;如果没有,标识为 0。所以,文本信息的处理过程可以看作是根据信息中的关键词进行分类的过程,而最简单的分类就是“是”与“非”的分类。每一个复杂的分类过程则可以分解为若干个简单的分类过程,也就是分解为若干个“是”、“非”的分类。

在文本信息分类过程中应当遵循先粗分、后细分的原则,即首先将包含显著关键词特征的类别筛选分开,再对已分好的类别进行细分。这样一方面可以提高分类的效率,另一方面能尽可能避免分类重叠,提高分类的准确率。

分析欧盟对我国2010年召回案例文本信息,发现纺织品召回案例中召回原因种类并不复杂,特征词主要有14682、azo、detached、DMF、chromium等。其中,14682为欧盟标准EN14682,主要是指纺织品中绳带不符合欧盟标准或者已经发生过危险事故;azo是指偶氮染料,即纺织品中禁用偶氮染料超标;detached指脱落,即纺织品上小部件连接强度不够易脱落;DMF指二甲基甲酰胺,即纺织品中检测出二甲基甲酰胺;chromium指铬,即纺织品中铬含量超标。采用这些特征词对2005 ― 2010年的纺织品召回案例进行分类,准确率可高达94.4%。

利用特征词对文本信息进行标识转换成简单的文本信息后,即可以利用相关的数据分析工具对采集到的文本信息进行分析,以监测国外纺织品技术性贸易壁垒的动态走向并及时作出预警。

3 结束语

本文以RAPEX网站公布的召回信息为例,基于火车采集器软件,从网站选定、网址采集、内容采集、设置、任务调度等这 5 个步骤探讨了实现互联网中纺织品召回信息自动采集的相关要求和技术,以及对采集的文本信息进行预处理的方法。采用这些技术和方法,本文能实现对RAPEX网站公布的纺织品召回信息进行自动采集及分类,且准确率可高达94.4%,达到了自动建立纺织召回案例数据库的目的,为监测国外纺织品技术性贸易壁垒的动态走向并及时作出预警提供了及时、有效的数据支撑。

参考文献(略)

上一篇:汇力量 搭平台 促升级 下一篇:超细涤锦毛巾布分散/活性一浴法染色