数据抽取中数据预处理

时间:2022-08-22 01:41:13

数据抽取中数据预处理

在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。

【关键词】噪音数据 HTML Jtidy

1 在网页中的噪音数据

网页设计师在设计网页的时候为了使网页显示效果更为吸引用户,通常会加入大量图片、动态效果、特效字体等。主要包括:为了使用户更容易浏览网站内容还加入了以列表形式给出的水平或垂直导航条;部分网站会为了帮助用户快速查询信息加入网站内信息查询表单;一般网页底部会包含网站的版权信息、联系方式,友情链接等;通常商业站为了营利会在网页中插入大量的广告。这些网页中的辅助内容与网页要表达的主题内容并无关系,但是数据量多内容冗长,我们可把它们称之为“噪音”。虽然这些噪音信息对用户浏览网站来说具有一定的实用意义,但是对于机器提取网页数据来说,这些数据会使抽取结果混乱与内容不纯净失去使用价值。因此,在对网页进行信息提取之前需要先尽可能多的去除掉这些无关的噪音数据。

通常我们要抽取的内容位于网页的中间,噪音数据分布在网页正文内容的周围,普通用户阅读网页上时一般会习惯性地越过广告、导航等信息轻松阅读,不会去关注这些内容。但是,对于使用程序去抽去信息时,我们所面对的不是用户所看到的图形界面,而是直接分析网页所对应的html源代码。这些噪音数据和网页正文信息混和在一起,显得杂乱无章,分析起来十分困难。去掉网页中的噪音数据,有利于减少其对最终抽去结果的干扰,提高系统抽取的准确度。同时,去除内容冗长的噪音数据,实际上是对网页标记树进行剪枝操作,可以极大地减少整个网页数据规模,降低程序计算的时间消耗,提高了系统的性能。另外,经过实践证明,去除一定量的噪音数据后系统运行错误分析跟踪工作也变得容易很多。

2 HTML错误检查与修正

目前大多数网站是HTML格式的,HTML的使用存在随意性,不规范和不严格等问题。HTML编码不强制要求网页中每一个标签都有结束标签配对,甚至存在一些错误配对的网页标记,虽然它们依然能够被浏览器正常显示,但这些错误可能导致后面的数据抽取工作无法进行。XML(可扩展标记语言)是由SGML发展而来,是被设计用来描述数据,其焦点是数据的内容,具有定义严格、语法明确、表示方便、结构良好适用于所有行业的新的标记定义等特点。将HTML格式网页转换成结构严谨的XML文档是Web数据抽取工作的必要环节。

HTML tidy是一个开源HTML代码检查工具,可以指出其中没有完全符合W3C标准的地方,对网页中存在的错误自动进行必需的修正并完成HTML到XHML转换工作,使代码符合相关标准的要求。JTidy是HTML Tidy用Java语言实现的版本。

Jtidy的使用比较方便,使用Jtidy时需要以配置文件形式给出修订具体要求。使用Jtidy工具页面进行清洗,有下面几种预处理规则:

(1)对HTML标记进行配对闭合

所有的标记必须首尾标记配对,例如与结束标记,与结束标记var _userid = '';var _siteid =691;var _istoken = 1;var _model = 'Model03'; WebPageSpeed =1406; UrchinTrack();等,对于单体标记必须以结束,例如

(2)删除与抽取内容无关的标记

与抽取内容无关的标记一般为注释标记、动态脚本标记、样式标记、表单输入标记。注释标记完全独立于DOM文档树结构,与本文主要研究的网页层次结构算法无关。页面中大量的动态脚本标记...和样式标记...它们一般包括大量的修饰作用代码,经研究对比,这些代码长度较长远远超过正文内容甚至多达数十倍。去除这些节点有利于后期页面正文抽取。需要删除包括这些节点的起始标记和结束标记以及它们的内容。另外,在详情页中的长文本中,通常存在换行标记

或段落标记

,这些标记会导致系统把长文本分成多段抽取,在后期数据存储时找到不到其对应属性项,同样把它们作为噪音去除。

(3)替换转义字符

网页源码中存在一些特殊字符,例如 “  ;”和“&gb ;”,需要转换成对就的空格和 >符号。输入:原始未处理html文件,输出:经Tidy修正后的xml文件。

HTML文档的标记之间通常会包含大量回车、换行符、制表符等空白字符这些字符不是网页抽取内容。虽然这些内容在浏览器中并不显示出来,但是在后期数据抽取阶段时,XML文档经解析生成DOM树结构,空白文本会被转成空白文本节点。由于文件中空白节点数目较多,影响后期抽取算法性能,并且对用户毫无意义,所以在本文中也作为噪音数据处理。

3 结束语

过滤掉网页中与用户关注内容无关的页面展示数据,将分散在html标记中的事实信息抽取出来,转成结构化的语义清晰的数据以供其他应用程序使用。可以看出,高效地从网络中抽取有价值的数据的前提是“噪声”的识别和消除。“噪声”的识别和消除,成为数据抽取的网络信息检索领域中的重要研究课题。

参考文献

[1]毛先领,何靖, 闻宏飞. 网页去噪音:研究综述[J]. 计算机研究与发展,2010,47 (12 ) : 025-2036.

[2]SALTON G,FOX E,WU H. Extended Boolean Information Retrieval [J].Communications of the ACM, 1983,26(11),1022-1036.

[3]宗永升,张.支持向量机与K近邻结合的网页分类方法[J].计算机仿真,2010,27(9), 08-211.

[4]李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1),62-68.

作者简介

郭东峰(1977-),男,河南省新乡市人。主要研究方向为计算机软件与理论。

作者单位

新乡学院计算机与信息工程学院 河南省新乡市 453000

上一篇:嵌入式Linux系统实时性能测试研究 下一篇:教学资源网络管理系统的研究与应用