新兴技术为互联网加速

时间:2022-09-19 06:55:57

新兴技术为互联网加速

随着Web 2.0时代的到来,大量用户产生的内容(UGC)丰富了网站,但信息的爆炸也给互联网从业者带来挑战。与此同时,智能计算CON 2.0、新型搜索引擎优化、标签等技术的出现和普及,也带来了便利。

智能计算技术在互联网的应用

当人们为“第四媒体”的革命性摇旗呐喊时, 信息激增带来的过剩与泛滥也让我们徘徊在信息焦虑和信息饥渴之间而心力交瘁,每天涌现的资讯、图片、讨论和电子邮件, 远远超出个人处理能力的极限, 面对如此浩瀚的“信息海洋”,知识在哪里?

智能计算的出现带给人们新的希望, 智能计算是计算机利用存储与统计等特长模拟出人类智能效果的技术,它将原始无序的数据转化成容易理解、价值较高的信息,并将正确的信息在正确的时间以正确的方式分配给正确的人。智能计算代替人工方式,通过从非结构化数据到结构化数据以及从字符到语义,实现对信息的搜集、加工、管理和分析,帮助使用者获得知识或洞察力,促使他们更快地做出决策。运用语义分析、数据挖掘、模式识别等一系列技术,将过去的信息转变成今天的知识进而转变成明天的财富。本文将对当前互联网中正在兴起的诸多智能计算技术进行简要描述。

页面分析

互联网可以说是一个非常巨大的数字图书馆,搜索引擎是这个图书馆的索引工具,对于阅读者来说,他们可以通过搜索引擎或其他方式来找到这个图书馆里面的资料。这些资料都是以HTML形式表现出来的,HTML是面向浏览的文件格式,但其非结构化的特征阻碍了对信息的再利用。当阅读者需要这些资料的时候,简单地只能是Ctrl+C和Ctrl+V地逐条处理,效率非常低。再进一步可以是采用网络爬虫技术将需要的页面批量抓取下来。

爬虫技术虽然解决了批量获取数据的问题,但抓取下来的文件仍然是HTML格式的,无法直接进行二次处理。那如何将互联网的数据转化为能够进行快速高效获取的信息呢?必须将其转化为结构化的XML格式数据,这其中不可缺少的一项技术就是页面分析技术。

页面分析技术通过对HTML页面进行分析,将其中有价值的部分解析为结构化信息作为进一步处理的基础。如针对新闻页面分析,把页面中的标题、作者、时间、来源、正文内容等信息提取出来;针对商品页面分析,把商品名称、价格、厂商、品牌、型号、其他属性等信息提取出来。

页面分析有两个主要的实现途径: 1.模版识别法; 2.自动分析法。

模版识别法,也称正则匹配法。它是目前最常见的一种方法,它需要对网站页面进行分析,简单还原出网站的模版,然后手工配置相应的正则表达式,把需要的信息提取出来。使用这种方法有很多限制:首先,使用范围受限,必须指定网站,且网站必须由模版出来;第二,使用规模受限,因为需要人工配置,工作量大,对方网站改版就需要重新配置,后期维护很困难。这些局限决定了模版识别方式不可能对大规模互联网上的资源进行实施。

因此,很多知名公司都在研究如何在没有人工参与的情况下,自动地对页面进行分析以获取需要的数据。当前比较成熟的算法为基于视觉的识别方法,其主要过程是根据页面结构模拟浏览器展现,然后根据人使用浏览器的习惯所设定的视觉焦点来从页面中分析出主要内容,再对其进行结构化的提取。我们目前的技术已经可以解析包含DIV、CSS、JS等复杂元素的页面结构。

应用

页面分析技术应用范围非常广泛,大到各搜索引擎、垂直引擎,小到某一个新闻编辑甚至是每一位网民,都可以使用这项技术。它跟搜索引擎的爬虫相结合,可以快速地收集各类资源,并转化成XML数据,从而迅速实现各类垂直引擎。它跟网站的系统相结合,可以使编辑人员在转载新闻时,从烦琐的复制粘贴中解放出来,以便有更多的时间来组织内容;通过与论坛、Blog系统实现对接,网民可以方便地上传内容。

以现在互联网的组织形式,并不利于数据的重复使用,而页面分析技术将像一把巨大的梳子,它对互联网进行反复的梳理,把非结构化的HTML数据整理成结构化的XML信息。

关键词分析

关键词是从文本正文中选取出来的,是对表述该文本的中心内容有实质意义的词汇。在确定文本的关键词时,要进行基于语义的主题分析,根据结果选取若干词汇(通常为意义清晰稳定的名词和动词)作为该文本的关键词集合。关键词同主题词的主要区别是主题词是经过规范化的。关键词最初是用做计算机系统标引文本内容特征的词语,便于信息系统汇集作为检索、分类和聚类等进一步的分析的依据。

应用

自动Tag标注(ATA)

Tag对于其标识的内容而言,既是一种面向信息共享的语义特征表述,又是一种对比于传统树状分类结构的动态分类系统。目前流行的做法是人工标注,也就是Folksonomy(即大众分类),大众用自己的语言标记内容,访问者则在相同的语境下进行查找。基于关键词分析技术的自动标注技术正是结合了传统分类方法和人工标注的优点,在内容本身的情景下进行标注,同时提供每个关键词对内容的贡献度作为参考,规范了标注的标准,从而保证了质量。

自动锚注(AA)

锚链接作为超文本区别传统媒体的重要特征,注重信息之间的关系的建立与表示。建立在锚链接基础上的信息组织结构为由存放信息的节点,描述信息之间关系的链及其描述信息与链的端点的源锚组成。在合理的锚链接密度(过多会分散阅读者的注意力)的前提下,运用关键词分析技术,同时结合自动Tag标注,真正做到帮助读者在重要概念上进行有效的拓展阅读。

关键词作为信息语义抽象和压缩的有效手段,结合相关的领域知识,对降低信息加工处理系统的复杂度具有重要的意义。

相似度计算

相似度是标识两篇文本在中心内容上在多大程度上重合。通过对文本进行语义分析,构建出表征语义向量空间,进而计算出文本之间量化的语义距离,距离短则相似度高。

应用

重复内容发现(DCD)

互联网信息复制的低成本和网络本身的冗余性导致“复制品“的大量存在,于是乎信息加工的第一步就是要消除掉这些明显的无效部分。目前通行的做法是全文匹配自动监测,这样做的缺点很明显:对稍作改动的副本无法消除,无形中降低了信噪比并且增加了后续处理的负载。利用文本的相似度计算,根据具体情况设定阀值,过滤掉从阅读角度上看雷同的内容,避免了系统的重复处理,充分提升了效率。

相关推荐(RR)

相关推荐又可以称为信息过滤,它是根据用户的兴趣或偏好自动地收集和用户兴趣相关的信息推荐给用户的过程。信息过滤主要有基于内容过滤(比如相关新闻,个性化信息)、经济行为过滤(比如亚马逊的Also Buy)和社会化过滤(比如豆瓣的推荐系统)。其中,基于内容的过滤可采用相似度计算技术进行处理(社会过滤可使用前文的自动Tag标注进行处理),目前使用的机制都是基于手工指定,缺点是受限于指定人的知识背景和对内容的理解,缺少统一的标准;另一方面是推荐过分收敛(往往是指定几个关键词),缺乏发散性,同时,效率低也是个不容忽视的问题。

相似度计算作为描述信息之间关系的主要手段,是实现从字符运算跨越到语义计算的重要环节,在消除冗余、构建关联等方面的作用非常重大。

自动摘要

随着互联网的发展,互联网上的信息越来越多,而网民每天所能阅读的信息量是有限的,如何能够让网民快速阅读每天涌现出来的新信息,是各大网站急需解决的问题,自动摘要技术就是一个行之有效的解决方法。简单地说,就是根据文章内容自动地为文章生成一段摘要来描述文章内容。它是中文分词技术、关键词分析技术、篇章分析技术等的综合应用和体现。

应用

针对各类以提供内容为主的网站(如新闻站点),需要信息能快速方便地为浏览者所阅读,自动摘要技术可以跟CMS系统相结合,为其提供自动生成导读的功能。针对Blog和论坛系统,也可以提供类似的导读功能。另外,在RSS订阅中也可以提供摘要信息作为导读内容。

随着信息量的增大,对检索系统的要求越来越高,当达到一定程度后,现有的检索系统可能负荷不了针对全文进行的检索,而摘要内容作为文章的核心内容,可以考虑使用只索引摘要的方式来降低对检索系统的负荷,延长现有检索系统的使用周期。

在信息处理过程中广泛应用智能计算技术,通过从非结构化数据到结构化数据以及从字符到语义,将混沌变为有序,创造性地发现知识,未来人们利用互联网将有可能更为有效、合理地配置各种资源,提高整个社会的效率。

上一篇:升级到Vista为时尚早 下一篇:30亿元投向“金税”三期