基于本体的自适应网站研究

时间:2022-09-14 01:50:14

基于本体的自适应网站研究

摘要 现今的互联网用户与网站的交互已经演化为一种互动的方式进行。本文首先对当前自适应网站的发展进行了详细的介绍,然后对讨论了网站内容的挖掘与本体的开发,同时全面介绍TF-IDF加权方案和Jaccard相似性度量在自适应网站系统开发中的应用,最终结合用户浏览网站的特性,阐明自适应网站开发的内容和架构。

关键词 内容挖掘;本体;TF-IDF加权;Jaccard相似性度量

中图分类号TP393.092 文献标识码A 文章编号 1674-6708(2010)25-0204-01

1 背景介绍

伴随着因特网的快速发展,网络上的信息量在迅速扩张。目前的搜索引擎越来越难满足个人对信息的需求,造成这一问题的主要原因在于目前的大多数提供搜索服务的网站不能以一种主动的方式提供有用信息,即使少数网站已经拥有Web挖掘功能,但是只侧重于数据库知识的发掘,对用户个性化服务的提供处于欠缺状态。网站非常有必要根据最终用户的需要来改进和选择应用与服务。如何将个人信息服务与网站挖掘联系是提升用户在因特网上获取信息的关键问题。我们需要利用网站挖掘的数据来探索使用者的网上检索模式,并且为用户构造出新的网站拓扑结构。近年来,根据语义网发展的趋势,一些建立在本体基础上的用户模式研究已经被提出,包括SmartPush,OBIWAN,但它们都没有一个完整的本体体系,只是建立在概念层。

2 挖掘网站内容和结构

当今,很多数据挖掘技术在被许多领域被应用,例如文本挖掘,网页挖掘,图片挖掘,联系分析等。伴随着大量开源网站的出现,我们有必要利用特殊挖掘方式来讨论网站的新特征。它主要是通过分析网站相关内容的个人浏览行为,同时结合与本体相关的数据库来重新组织网站的内容和结构,并发现个人与网站内容之间的联系。

当提及网站内容和结构挖掘时,首先要开发一个域本体。一个半自动的数据驱动本体结构系统可以被用来从网站中提取数据,从而抽象出一个浏览层次来获取信息和知识库。由于目前已经有许多研究和开发团体提供本体支持,在此,不作为重点介绍。网站挖掘的关键点在于将每一个实例利用特征向量来表示,并且要知道每一个特征向量是如何联系起来的。要将网站内容转换成特征向量的文本内容,首先必须捕捉所有网站中的网页浏览关系并对它们加权,在网站上收集到的浏览联系次数超过一定数量时就进行标注,网页之间的浏览联系用弧线表示,弧线上的数字代表页面浏览关联度的大小。数值较大则代表两页面存在较高的关联程度。接下来需要将网站转换成网页和特征向量的结构。需转换成特征向量的网页,例如,预定义页面序列长度,当出现的浏览网页超过一定数额的时候,连续的页面序列就会产生。在研究中使用的是TFCIDF加权方案。下一步,需要选择一种方式衡量相似度来估计个人用户的浏览特性。一些研究采用WordNet作为模型,利用Jaccard来估计本体的一致性。在本文中,我们利用这些公式中的Jaccard相似性测度公式。 Jaccard相似性测量方法返回是数值的量,它将两组数据中的所有因素都要考虑在内,Jaccard公式如下:

Jaccard C sim(u1,u2)=P(u1∩u2)/P(u1∪u2)

Jaccard相似度的测量值在0到1之间。如果u1与u2测量值是0时,则表示u1与u2之间无任何相关性,相反,如果u1与u2测量值是1时,则表示u1与u2之间是相似的。一个用户特征检索爬行程序将会用到,其主要功能是将网络中的用户特征摘取到本地数据库中,它的爬行检索过程如下:1)确定本体和其领域范围,掌握与本体相关的主要用户特征,该部分发现整个本体中用户特征之间的主要联系;2)考虑重新使用现有的用户特征数据;3)枚举本体中重要的用户特性;4)重新构建新的用户特性和层次结构。

3 建立在用户特性发现基础上的网页自适应

目前,因特网上的数据量非常的巨大,这就导致用户获取数据的困难。通过分析当前用户的行动,并通过本体中的用户特性配置文件与之比较,可以将个人用户归类到某一概念用户群之中,同时给他推荐的页面和焦点条目。建立个人特性配置本体之后,可以通过个人有限次的浏览行为确认他的关注内容,并及时将他关注的其它内容动态组织展现出来,这就是自适应网页的建立。自适应网站的任务是确定用户的类型和通过个人的近期浏览活动确认特性。这些判断都是建立在本体基础之上。

4结论

在通常情况下,自适应网页系统的建立是基于网站的整体使用情况,由于个人用户的浏览行为过程对于网站是透明的,其结果就是可以个性化的调整网页为个人用户所服务。目前基于个人网站比较成熟的推荐系统包括Personal Webwatcher和OntoSeek。本文主要讨论了基于用户模型和网站本体的个人信息服务的产生,将重点集中在网站内容挖掘和结构分析技术上,并且设计出如何为个人信息服务重新构建网站内容和开发的架构。

参考文献

[1]陈复扬,姜斌.自适应控制与应用[M].北京:国防工业出 版社,2009,6.

[2]麦权帮,傅仁毅.基于Web日志的自适应站点优化研究与应 用[J].电脑知识与技,2009,14.

[3]Fortuna, B, Grobelnik M., Mladenic D.: Semi- automatic Data-driven Ontology Construction System. In Proceedings of the 9th International Multi-conference Information Society IS-2006, Ljubljana, Slovenia,2006.

[4]Grcar, M., Mladenic, D., Grobelnik, M., Fortuna, B., Brank, J.: D2.2: Ontology Learning Implementation[5].Project report IST-2004-026460 TAO, WP 2, D2.2,2006.

上一篇:中国桥梁未来发展的认识 下一篇:城市广场的设计与思考