网络信息采集技术探析

时间:2022-08-18 01:33:54

网络信息采集技术探析

[摘 要]网络时代已经到来,网络改变了我们的生活方式,也带动了网络技术不断取得新的进步。网络信息采集技术是网络建设的常见方式之一,本文将进行分析。

[关键词]网络信息;概述;采集技术;质量控制

中图分类号:TP274.2 文献标识码:A 文章编号:1009-914X(2017)17-0352-01

1.前言

网络信息资源极为丰富,概述起来有以下几个特点:一是数字化、网络化、虚拟化;网络资源以存储方式数字化、传播方式网络化、形态结构虚拟化的方式在网上表现出来。二是内容多样性;网络资源包罗万象,具有大数量、多类型、非规范、跨时空、内容良莠不齐、质量高低不等的特点。三是资源分布无序性;网络资源的构成和分布杂乱无章,缺乏统一的结构和组织。四是资源开放性;网上资源是开放的、相关联的,用户只要将计算机连接在网络上,就可以任意浏览并下载这些网络资源。五是动态性;网上资源跨地区分布,高速传播,更新淘汰周期短、变化快、不稳定,呈高度动态性和很强的时效性。六是互动性;在网上可以形成广泛的论坛氛围,专家可以就某一专题开设电子论坛,在网上直接交流讨论、反馈用户信息,具有很强的互动功能。七是增值性;网上信息资源开发与建设的最终目的是服务。用户在网上利用各种手段查找所需的信息内容,在这一过程中信息被反复利用,不但不会导致网上信息资源损耗,反而可使信息增值。

2.网络信息采集简述

2.1 采集方式

在现在的互联网世界里,我们接触最多的网络信息是以Web页面形式存在的。另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。平常,我们通常利用一些客户端软件手工链接到信息源去获取信息。例如,在win7平台上用户即可运用ie、谷歌、搜狗、有道、360等各类浏览器上网浏览所需的网页内容;运用搜狐邮箱、QQ邮箱、Outlook等收发邮件;运用迅雷等软件下载软件、电影、歌曲等。上述客户端或软件为用户上网或下载提供了方便,但均需通过手工输入链接以获取到所需的信息,但是当今网络信息爆炸,大量的信息汇聚在一起,单纯依靠手工输入的方式无形中增加了搜索的工作量和难度,难以满足用户的需求。因此,基于上述情况,信息采集与推送技术应运而生,为用户浏览信息和接收信息提供了极大便利。

2.2 采集技术

在网络信息时代,短时间内获取大量信息的最有效方式就是信息采集,尤其是在创建新站点的过程中信息采集是最常用的方式。运用采集软件或采集器即可从特定的采集对象中自动获取到所需的信息,以填充到新站点之中。网络搜索引擎也是通过一个叫做WebCrawler的机器人程序负责网络信息的采集工作的。WebCrawler是一种能够利用Web文档内的超链接递归地访问新文档的程序,它以一个或一组URL为浏览起点,对相应的WWW文档进行访问。当一个文档上传到服务器之后即有可能被搜索引擎抓取以创建文档索引,该文档中蕴含的超链接则会被WebCrawler再次抓取且再次创建新的文档索引,如此循环。一方面,为WebCrawler的抓取工作提供了海量的资源;另一方,丰富了网民的网络世界,实现了信息的快速流通。这种信息采集方式集合了定题收集与定向收集以及跟踪收集等方式,具有采集灵活与方便的特性。

2.3 推送技g

网络公司根据自身的需求运用相应的网络技术并设定一定的标准,从海量的网络信息世界中采集所需的信息,经过加工处理之后再传递给用户。在该模式下,用户没有主动获取信息之权而且被动的接受网络公司提供的信息,但却节省了自身搜集信息的时间与成本。

3.网络信息采集技术类型

3.1 网络信息挖掘技术

网络信息挖掘技术是指在主题样本的基础上,得到数据间的内在特征,并以此为依据在网络中挖掘与用户需求一致的信息的技术。它是数据挖掘技术在网络中的应用,整合了全文检索、人工智能、模式识别、神经网络等技术。网络信息挖掘根据用户提供的主题,提取主题特征信息,根据主题特征自动在网络中挖掘信息,然后对挖掘到的信息进行整理,导入信息库,以备过滤之用。

3.2 网络信息抽取技术

网络信息抽取技术是指从网络自然语言文本中抽取更符合采集主题的信息,并形成结构化数据输出的技术。它是在机器学习、模式挖掘、自然语言处理等技术基础之上发展起来的一项新技术。网络信息抽取步骤主要分为命名实体识别、句法分析、篇章分析与理解以及知识获取。①命名实体识别。命名实体是文本中的基本信息元素,是正确理解文本的基础。命名实体是现实世界中的具体或抽象实体,例如通常由唯一标识符(专有名称)表示的人员,组织,公司,地点等,例如姓名,组织名称,公司名称,地名等。②句法分析。它是计算机通过语法分析来理解自然语言的基础,例如完整的分析树或一组分析树片段。③篇章分析与理解。一般来说,用户的兴趣通常在文本的不同位置传播,文本中隐藏着很多。为了从文本中准确提取相关信息,信息提取系统必须能够识别文本和文本之间的常见现象。如果文本的来源更广泛,许多文本可能会描述相同的实体,并且不同文本之间将存在语义歧义。如果同一个词有不同的含义,不同的词意味着一个意思。为了避免重复信息,冲突,信息提取系统需要识别和处理能力参考现象。④知识获取。作为一种自然语言处理系统,网络信息抽取技术需要知识库的支撑。知识库主要包括:词典、抽取模式库、篇章分析和推理规则库等。

4.网络信息采集过程中的质量控制

4.1 网络信息内容的选择

由于当今网络站点数以万计而且每日处于增长之中,信息每日俱增,大量内容相似乃至重复的内容充斥其中,对于用普通用户而言难以控制信息的重叠,只能被动的接受。尤其是在我国网络管理制度不健全的大环境下,加之搜索引擎在创建之初缺乏信息,并未对信息进行分类和筛选而是全盘接收,由此直接导致了网络信息的泛滥与内容低质化。当用户搜索过程中,搜索引擎呈现出来的是多样化且相关性不强的内容,增加了用户选择的时间和成本,不利于网络环境建设与信息采集。为此,在信息采集过程中必须要制定相应的控制措施,合理选择内容,针对性进行采集。

4.2 网络信息的采集策略

综合上述分析,在信息采集过程中可制定以下几点采集控制措施:其一,根据需求合理控制信息采集的深度,以节省资源和提升效率。针对网页链接层次较深的站点,全站采集不仅难度较大而且极耗时间,因此结合信息内容确定网页深度,达到一定的深度即可无需再进行采集;其二,根据采集信息的内容,剔除无关紧要或无需采集的链接。一个站点包含了大量链接,其中可能存在诸多重复链接与死链等,对于这样的链接在采集过程中应加以规避,避免占用采集资源;其三,限制搜索跳转。作为专业搜索引擎,要采集的信息资源通常集中在几个固定的初始网站内,这样就不希望网站采集器跳转到其它的网站;其四,根据采集需求,剔除无需采集的文件类型。任何一个网站均含有诸多文件类型,视频、动画、图片等而且图片又可以分为.bmp,.jpg,.gif诸多格式。因此,在采集过程中可根据需求设定采集条件,剔除掉无需采集的文件类型,避免其占用有限的采集资源,提升采集效率。

5.结束语

对于网络信息我们要加强采集利用,通过合理的采集手段保证信息的采集质量。

参考文献

[1] 郭岩,王宇.网络信息抽取技术研究[J].信息技术快报,2016(6):15-23.

[2] 刘柏嵩.信息过滤研究[J].现代图书情报技术,2016,(6):23-26.

作者简介

庞杰,身份证号:320828197802252856。

上一篇:是血缘世系还是传说世系 下一篇:磨料射流切割金属套管的力学模型