一种基于语义的Web挖掘方法研究

时间:2022-10-11 09:05:36

【前言】一种基于语义的Web挖掘方法研究由文秘帮小编整理而成,但愿对你的学习工作带来帮助。0 引言 面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。本文探讨了一种网页分块方法,能识别出网页中的主题内容信息块,从而提取出有价值的主题内容。这种方法可以去...

一种基于语义的Web挖掘方法研究

摘要:在已有的基于DomTree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。

关键词:语义Web;Web挖掘;网页分块

中图分类号:TP311.5 文献标识码:A 文章编号文章编号:16727800(2014)001005402

基金项目基金项目:国家科技支撑计划项目(2012BAH27B03);石河子大学自然科学与技术创新联合资助一般项目(ZRKXYB-LH23)

作者简介作者简介:李伟(1980-)男,硕士,石河子大学信息科学与技术学院讲师,研究方向为Web开发技术、计算机网络。

0 引言

面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。本文探讨了一种网页分块方法,能识别出网页中的主题内容信息块,从而提取出有价值的主题内容。这种方法可以去除网页中的噪音,极大地方便后续数据挖掘与Web分析。

1 研究现状

语义信息主要包括网页中包含的HTML标签信息、HTML DOM树的结构信息、文字内容信息、超链接信息等,现有网页分块算法是在网页分块的过程中完成内容提取的[1]。SiteLevel算法实现了分析一个网站或者网页集内部的所有网页,从中提取导航栏、广告等噪音信息。采用正则表达式来改进SiteLevel算法则增加了算法的召回率[2]。PageLevel算法能够适应各种不同网页结构的内容抽取,算法通过提取一些网页节点来完成分块工作[3,4],以上工作需要给出标准的网页分块[5],其对不标准的分块效果不理想。

2 语义挖掘算法

2.1 网页分块方法

在借鉴上述研究基础上,本文分析了W3C制定的HTML4.01格式规范,将所有规范的Html标签进行分类,分类标签如表1所示。

在明确了各html标签的类别之后,利用DomTree中各标签节点的类别信息和内部文字长度,以及其子标签节点的类别信息,对DomTree自底向上遍历,在遍历的过程中不断判断出新的网页块,并加入网页块池中,当遍历到最上部的html根节点时,算法结束,网页分块完毕。分块方法的核心伪码如下:

INPUT :

某单个网页构建的DomTree,定制标签节点列表

BEGIN

①用DomTree的叶子节点,也就是文字节点建立一个当前节点队列,开始自底向上遍历;

②取当前节点队列的第一个节点;

③如果遇到S型节点,则立即将此节点加入网页块池;

④如果遇到C型节点,则立即将此节点加入网页块池;

⑤如果遇到B型节点,则判断该节点内部的文字长度是否已超过阈值,或者该节点内部的L型节点比例是否超过阈值,如果满足上述两个条件之一,则将此节点加入网页块池;否则将其内部文字长度信息和自身信息向父节点传递,然后将父节点加入当前节点队列,回到②;

⑥如果遇到L型节点,则将其内部文字长度信息和其自身信息向父节点传递,然后将父节点加入当前节点队列,回到②;

⑦如果遇到D型或A型节点,则将其内部文字长度信息向父节点传递,然后将父节点加入当前节点队列,回到②;

⑧当前节点队列为空时,遍历结束,算法终止。

END

2.2 挖掘算法

采用基于规则和基于Bayes的语义分析相交的方法判断每个网页块的类型,然后对它们求交集,只有两个方法共同认定的主题内容块才能最终被认定。算法的伪码阐述如下:

2.2.1 基于文本相似度的方法

(1)首先,把所有网页块中,文本长度最大的那个网页块判定为主题内容块。

(2)用其余网页块逐个与最大的网页块比较文本相似度。文本相似度的计算如下: ① 将两个网页块分别切词,去除停用词后,存储成token流;②对两个token流分别排序;③ 对排序后的两个token流计算token的重复数; ④ 用token的重复数除以较小的token流中的token个数,得到两个网页块的文本相似度。

(3)若文本相似度大于一个阈值,则该网页块也判定为主题内容块。

2.2.2 基于Bayes的方法

利用Bayes概率的计算公式,计算出每个网页块是不是主题内容块的后验概率。若该后验概率大于0.5,则判定该网页块为主题内容块,否则反之。

2.2.3 求交

两个方法共同判定的主题内容块即为最后认定的主题内容块。

3 系统设计

语义挖掘的目的就是把对方网站上网页中的某块文

字或者图片等资源下载到自己的数据库或其它的存储形

式,这个过程需要的工作包括:下载网页配置、解析网页配置、修正结果配置、数据输出配置。配置完毕后,把配置形成任务(任务以XML格式描述),到采集服务器群组,采集爬虫按照任务的描述开始工作,最终把采集到的结果存储到结果存储服务器。然后用户的信息处理系统就可以到结果存储服务器上取到数据,作为自己的数据源。系统设计流程如图1所示。

图1 系统设计流程

4 结语

本文提出了一套基于语义的网页分块主题内容信息提取算法,该算法详细剖析了所有符合W3C标准的Html标签的功能特性,将它们分为类,同时将原先树型架构的网页语义块层次结构转换成为平行架构,各个语义块相互独立开来,在此基础上研究主题内容信息提取,给出了提取算法伪码,两个算法分别计算主题内容信息块,然后求交,最后得到的信息块既能反映其文本的重要性,又能反映其内部结构的重要性,防止了单个算法可能导致的偏差,提高了网页主题内容信息提取的精度和召回率。

参考文献参考文献:

[1] RUPESH R MEHTA, AMIT MADAAN.web page sectioning using regex based template[M].In Proceedings of World Wide Webconference, 2008.

[2] SANDIPDEBNATH,PRASENJIT MITRA,NIRMAL PAL,et al.Automatic identification of informative sections of webpages[M].IEEE Transactions on Knowledge and Data Engineering,2005.

[3] DEEPAYAN CHAKRABARTI,RAVI KUMAR,KUNAL PUNERA.Pagelevel template detection via isotonic smoothing[M].In Proceedings of World Wide Web conference,2007.

[4] 陈晓云,陈伟,王雷,等.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):10171026.

[5] 范众,郑诚,王清毅,等.用naiveBayes方法协调分类Web网页[J].软件学报,2001,12(9).

[6] 杜兴勇,刘延平,王忠文.Dijkstra算法程序的优化与实现[J].通化师范学院学报,2008,29(12):19.

上一篇:基于特征矩阵的高效数字识别算法 下一篇:非线性方程的智能化实现及应用