安全企业搜索在校园网的应用

时间:2022-09-26 08:07:17

安全企业搜索在校园网的应用

摘要:随着互联网的快速发展,互联网搜索已经成为每个网民最重要的查找自己想要的搜索工具,但是这些都针对个人用户,大量的企业都有庞大的文档数据,只提供给内部员工查询使用,而且数据种类繁杂,需要一个统一的内部搜索入口提供给员工使用。该文针对校园网信息特点,对安全企业搜索在校园网进行应用研究分析,提出系统构架,并结合已有解决方案设计校园网安全搜索的应用实施。

关键词:安全搜索;校园网

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)17-4049-02

互联网搜索已经深入人心,几乎每个浏览互联网页面的人都知道使用谷歌、百度等互联网搜索来查询自己需要的资料和信息。随着信息资源的爆炸性增长,针对个人的搜索越来越难以实现搜索的准确性和安全性,因此搜索方式也在发生变革,有针对不同信息内容的定向搜索:比如新闻搜索、产品搜索、公司搜索等;也有针对不同用户群的安全搜索。

一直以为人们一直认为互联网搜索不同于企业搜索,企业的需求与消费者有很大差别。在搜索方面,企业对安全有更高的要求,有更多的结构化和非结构化数据需要管理。企业还需要处理“隐藏”在数据库、共享文件、内联网和企业应用软件中的数据。

本文针对校园网信息特点,研究安全搜索的技术框架,并结合已有解决方案设计校园网安全搜索应用实施。

1 安全企业搜索的概念和特点[1]

1.1 搜索引擎的概念

搜索引擎(Search Engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。

1.2 安全企业搜索的概念和特点

尽管互联网搜索已经深入人心,每个浏览互联网页面的人都使用过搜索引擎来查找自己需要的内容,但是这些都是针对个人用户。对于一个企业内部来说他们有很多内部不公开的东西需要被全文索引,比如内部网站,内部只供员工查阅的大量的文档和内部Ftp目录,如果信息规模很庞大需要短时间从文档中抽取需要的信息,如果把内容存在数据库里,由于大部分的数据库没有提供全文索引的方式检索字段所以如果数据量很大的话会很慢,而且对数据库的压力太大,不能承受大规模的搜索。

企业目前正面临着信息爆炸危机。研究显示,企业内部数字化内容每年以80%的速度在增长,新类型内容不断出现。企业搜索面临的挑战与互联网搜索类似:如何管理浩如烟海的数据,向员工提供他们所需要的信息。企业对安全有更高的要求。由于存储有大量的机密信息,只有拥有相应权限的员工才能够访问某些信息。

互联网搜索的内容宽而浅,包含一个很大的内容和很多的主题分类,内容大多是平面(HTML、PDF)的和静态的(包括新闻),获取内容对所有用户都是一样的,属于非结构化的信息(文字,图片等);企业级搜索的内容窄而深,内容分类范围相对有限,内容丰富文件格式多样化,访问内容针对不同用户有权限分别,包含数据库结构化信息的搜索。

当然和网络搜索不同企业搜索不需要考虑,它不需要考虑复杂的链接关系,也不需要考虑到因为网络条件复杂而作的复杂的爬虫和索引文件磁盘阵列的设计。企业搜索内容的排序需要考虑的是根据用户的需求和文本的内容进行排序。

很多基于数据库技术和互联网搜索引擎技术的公司都开发了针对企业的安全企业搜索的应用方案,并且把这个市场作为重点的发展方向。

2 校园网使用企业搜索的意义和需求

2.1 校园网使用企业搜索的意义

现在无论是高校校园网还是中小学校校园网的规模都达到很庞大的程度,特别是高校校园网用户量都达到上万人的规模,相当于中等规模的园区网,而且高等院校教育和研究的内容更广泛,各类应用更复杂,但是大多数这种应用层的文件和数据都不能被外界访问,互联网搜索引擎搜索不到,而校园内的站内搜索服务很少,基于非结构化的数据搜索匮乏,教师学生员工也很难找到自己需要的内容。这都需要搜索能力更广泛更智能的企业搜索来实现。

2.2 校园网使用企业搜索的需求

基于校园网应用现阶段使用企业搜索的需求:

1) 多种文件格式的检索

现在基本上所有的CMS和文章系统都带有一个简单的搜索功能,这个搜索功能实际上是利用数据库的全文检索或者是更为简单的SQL语句来实现的。在校园网搜索中需要针对多种非结构化的数据文件比如PDF、DOC、PPT等文件内容进行准确的中英文分词并构建检索表,并能根据文件名称、类型、大小、日期多种条件达到准确性和全面性的搜索。[2]

2) 结构化数据库的检索和权限管理

能够结合用户权限和不同应用数据库建立映射关系,从不同类型结构化的数据库进行搜索,当然这一功能针对特定用户才有的特殊需求。处理数据管理、改变内容用途以及利用位于系统数据库的内容仍然是相当复杂的工作。

既然是企业数据,必然有不同的访问权限级别。安全的企业搜索必须做到根据不同文件类型和数据类型限定用户搜索的权限。

3) 与已有校园网门户系统的集成

校园网搜索需要与内部开发的工具与诸多数据源和应用进行集成,现在大多数校园网都有自己的门户系统,单用户登陆根据权限访问不同应用和资源,同样也需要与校园网搜索系统集成,并达到协同工作。可以根据不同教师和学生的门户系统赋予的角色确定搜索结果的优先级和显示次序。

4) 高级搜索功能

无疑企业内部搜索需要更准确和更贴近用户需求的搜索结果才是最终的目的。这就需要可配置的搜索参数,一般的互联网搜索引擎所提供的站内搜索服务,由于其面向全部的互联网站点,信息量巨大,决定其不可能快速更新索引数据库,这样在搜索引擎上就形成了一段滞后期。通过完全自主的选择什么时候要更新检索数据库或者以什么样的频率更新搜索数据库,使得校园网网站内的搜索功能可以对站点内页面的每一点变化做出及时有效的反应。

企业搜索目前仍然是非常新兴的市场,因为不同企业有很多不同的需求,而且根据不同应用环境的搜索实施也旷日持久。而在校园网应用环境也是如此,需要耐心的由简到繁一点一点的实施,并且由于应用的增长搜索的智能化和准确性需要不断地改进。

3 安全企业搜索在校园网中的应用技术分析

为了对企业搜索的原理更深一步的了解,作者简要介绍利用网上提供的开源的搜索引擎软件包Lucene来设计基本的校园网内部搜索功能;对校园网搜索应用实现做简要介绍。

企业搜索设计框图如图1。

总体设计方案为:通过FTP爬虫,文档爬虫,网页爬虫得到标准格式的文本数据,然后赋予相应的权值分词索引导入索引文件。通过Web形式得到用户查询字段和排序方式,然后根据用户的查询进行分词查询所得的字段进行搜索并将结果排序分页显示出来。

对于企业级搜索引擎排序方式是多种多样的,对于网页文件需要从网页爬虫中得到网页的权重,例如主页的权值相对于其他页面是比较高的。爬虫在爬取网页链接的过程中无论深度遍历还是广度遍历都能得到每个页面被别的页面链接的次数,可以记录这个次数并在索引时加权,这样在搜索时让其排在前面,提高主页的排名,对于FTP文件往往用户需要按照文件大小或者文件的日期进行排序。对于企业内部文档的索引和检索,可以按照文件类型和文件大小进行排序。也可以将某类文件加上一定的权值使之在搜索时候提高某类文档的排名。

其中索引模块可用文件存贮或数据库存贮,分词可用基于词法结构的二元分词也可以用基于字典的字典分词。

可使用Lucene做为全文索引工具进行实现。

Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。[3]

4 安全企业搜索在校园网应用实例

现在市场基于数据库和优秀搜索引擎开发商都有针对的企业级解决方案,目前主要有一下几种:[4]

1)Google Search Appliance(GSA)

针对不同类型的用户Google提供了两个搜索软件,一个是针对个人用户的Google桌面,另一个是针对企业用户的Google桌面企业版。它可对用户的计算机进行搜索,包括文件、电子邮件、浏览过的网页、即时消息、图片、音乐、视频等等。企业版 Google 桌面提供相同的用户功能,另外还可为 Lotus Notes 电子邮件编制索引;它为企业环境设计,可由公司中央资源分发,并由 Windows 管理员配置。

2)Secure Enterprise Search(SES)

Oracle在2006年3月1号推出了专为企业用户提供的企业安全搜索(Secure Enterprise Search)软件,是一种能通过与Google类似的用户界面搜索散布在企业内部所有信息的软件产品。能检索企业信息系统所管理的主要数据库里的信息,以及散布在公司内部网页上的文件、电子邮件、表格、PDF文件等各种信息。特点是可根据使用者的权限,限制可阅览的文件范围。

Oracle安全企业搜索(SES)是最新版本Oracle 11g的独立搜索解决方案(具有类似于 Web 的性能),可以安全地覆盖所有企业数据源,并且易于使用和部署。Oracle SES可提供:优秀的搜索质量;亚秒级查询性能;高度安全的信息收集、索引和搜索过程;随取随用的用户体验。[5]

3)Autonomy

在企业搜索领域,Autonomy的技术排名第一,Autonomy公司创始人看准了企业98%的信息并不在互联网上,而存储在企业内部的商机,致力于开发针对企业内部视频、音频、图片的搜索技术。Autonomy 革命性的企业搜索技术――智能信息操作层 (IDOL) 能够帮助企业管理大量的非结构化数据,诸如电话呼叫、电子邮件、文档记录等所有位于数据库之外的信息。

根据学校校园网特点和需求,作者选取了基于成熟数据库Oracle的SES作为校园网搜索的测试实施。

参照Oracle安全搜索网站上提供的案例,作者采用了Linux+SES10g安装测试了该解决方案,linux能有效利用硬件平台的大内存发挥最大作用,在ses配置中界面友好,配置站点、文件服务器以及数据库简介,提供了有Oracle图标的统一搜索界面,并方便和已有Radius Server和LDAP用户验证对接,实现了基本的权限控制和安全搜索。

参考文献:

[1] 卢亮.搜索引擎原理、实践及应用[M].北京:电子工业出版社,2007:10-15.

[2] 梁斌.走进搜索引擎[M].北京:电子工业出版社,2007:94-100.

[3] 王学松.Lucene+nutch搜索引擎开发[M].北京:人民邮电出版社,2008:112-120.

[4] 于天恩.迅速搭建全文搜索平台-开源搜索引擎实战教程[M].北京:清华大学出版社,2007:25-40.

[5] Oracle.Implementing - A Case Study[EB/OL].Http://.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:中药方剂数据挖掘中的数据预处理研究 下一篇:基于MVC的校园论坛系统的研究与实现