语义分析在网页信息检索中的应用研究

时间:2022-06-14 05:28:48

语义分析在网页信息检索中的应用研究

摘 要 随着时代的进步,互联网已经成我们生活、学习、工作中的一部分。现代社会的竞争也从以前的经济实力的竞争转变为社会信息化、网络化、智能化的竞争。随着网络深入到我们生活的每个角落,如何快速准确的检索网页上的信息也成为科技文献先检索人员研究对象,对于网页上信息的检索自然就少不了对网页上提供信息的语义的研究。目前大多数的网页出现的语义问题,还不能通过专门的的设备进行自动修改,这就要求人们通过自己的阅读来理解、了解文章的含义。基于此,本文探讨语义分析在网页信息检索中的应用。

关键词 语义分析;网页信息检索;应用

中图分类号TP391 文献标识码A 文章编号 1674-6708(2011)57-0224-01

1 网页信息检索

搜索引擎是因特网上最常见的一种信息检索工具。它分为定期搜索和提交网站搜索两类。定期搜索就是每隔一段固定的时间,搜索引擎就自动开启搜索的专门程序。这种程序通过执行语句来对固定的局域网的网络地址进行扫描,从而发现新的网络地址,进而对新网址对应的网站的信息进行吞吐,最终加入到自己的数据库中。提交网站搜索是指网站自动的将自己拥有的信息发送给搜索引擎,搜索引擎每隔一段固定的时间就利用编写好的程序对网站上的信息进行扫描,发现有新的信息就自动将其储存在备用的数据库空间中。

2 语义分析

从语言学的角度看,语义分析就是对句子中用到的词汇、动词搭配、形容词的运用、语法进行分析。语义学就是在对语言进行研究时形成的学科。语言学的语义研究主要是找出语义表达的规律、内在含义、内在解释、不同语言的寓意表达方面的个性及其共性。逻辑学的予以研究就是找到对逻辑关系的解释,凭借真值条件进行判断。如何分析网页中信息的语义呢,下面我们将从实际的例子中得到答案。我们知道大多数的文字都是通过文本的形式被存储起来的,但是对于不同地方的文本要表示的意义是不一样的。例如我们通常会将比较重要的文本文件设置在标题处,网页上的文本根据不同的标签分为了主标题-一级标题-二级标题-三级标题-四级标题-五级标题等等。网页信息的检索就是通过这些一级一级的标签进行语法的分析的。利用这些标签就能很快的准确的找到自己要寻找的文本及其段落,由于这项分析要求检索系统能自动完成,准确的算法是设计检索程序的基础。我们在对网页上文本进行分析时,程序就对有关的主标题进行搜索,这项搜索主要是对网页中重复出现该关键字的标题进行一个一个的检索,对于频数比较大的标题就根据算法进行排列,然后根据优先级的大小进行下一层检索,在分析出每个句子的模式,根据它所在的文本特征区域,首先计算出该语义模式的加权相关度,然后再对所有的语义模式的加权相关度求和,计算出全文语义相关度。

3 语义分析在网页信息检索中的应用分析

对于有固定链接的网页信息的检索分析可以直接通过网站来访问网页。使用该方法就要求搜索人必须知道信息所在网页的地址或是网络实名,该方法很快的就能找到自己想要的信息,但是我们在平时的搜索中很少知道自己要搜索信息的网络地址,这就要求我们先运用搜索引擎进行关键字的搜索,等到快要接近自己寻找的信息时在转到具体的网页的搜索。例如我们经常要到网页上看新闻,我们可以直接进入搜狐网;要在网上买东西可以直接进入淘宝网进行shopping.

对于就像中国知网这样的数据库就可以直接在数据库中进行在线查询。在我们的网络上有许多数据库,里面收录的大量的数据信息。如果我们想要了解中国目前大学生就业问题,我们就可以直接进入中国科学院科学数据库:来进行搜索。目前在我国各大高校图书馆都有自己的数据库,学生可以经过直接就如数据库搜索自己所需的文献和资料。

我们通过具体的实例来分析一下在网页视频中语义的分析和校对。我们知道对于网页上的视频主要是通过ASR来识别视频脚本进而进行词语的处理和检测,这里以动画片视频为例子。首先我们是将视频分成不同的语种,我们要子视频中找到汉语版的《喜羊羊与灰太狼》,对于不同的语种我们有专门的是识别程序,它是根据不同的语言组织形式、不同的语法、不同的发音等等进行搜索等的。例如对于汉语我们的语法就规定动词放在主语的后面、形容词放在名词的前面、读的时候从左向右依次进行等等,而对于英语就是从后向前进行读,根据这点的不同程序就可以利用语法的不同进行很好的逻辑判断。当然语言的判断还只是简单的起步,我们还要编写脚本程序来对具有同样作者的视频进行检索和归类,例如我们可以利用逻辑电路来进行仿真模拟,当我们将简单的灯亮的小程序拷到芯片里的时候我们看到了预期的现象,接着我们对每个脚本进行设置使得产生不同的现象,这样就很好的区分了作者。由于目前信息量快速地增加,每一时刻大量的信息进进入到网站,传统的提交网站搜索法已经不能满足信息的快速增加,这就要求新的方法来解决出现的问题,这时候外链接就应运而生。外链接主要是将原来一个页面出现的信息分成了几个页面,这样一来搜索引擎就有足够的时间将数据收录到自己的数据库中。我们在进行信息检索时通常是使用关键字来进行检索的,当你输入关键字进行搜索时搜索引擎就会在数据中进行扫描,对于出现频率较高的相关链接就出现在网页的最上方,按照频度依次向下排列。

4结论

网络信息组织是将具有共同关键字、共同语法、共同研究对象等等的杂乱信息进行分类整理,使其形成以一套完整的系统的过程。网页信息检索就是人们对整理好的信息的搜索过程,语义分析就是我们用到的一种关键的获取信息的方法。该方法快速的检索分类算法,使得我们的网页信息整理有章可循。

参考文献

[1]袁颖,赵捧未.基于语义网的数字图书馆信息检索模型研究[J].科技情报开发与经济,2010(7):1-3.

[2]张爱文,樊红莲.半离散矩阵分解改进算法在网页信息检索中的应用研究[J].黑龙江工程学院学报,2007,21(2):55-57.

[3]陈星光.基于语义Web的信息检索系统的研究[D].镇江:江苏科技大学硕士学位论文,2010.

[4]张铁虎,朱嘉钢.基于本体语义教务信息检索系统的设计与实现[J].淮海工学院学报,2011,20(2):3.

上一篇:浅谈自激式开关电源的分析方法 下一篇:宁夏水稻控灌技术