一种以Web语义挖掘的个性化信息推荐设计

时间:2022-06-05 12:31:57

一种以Web语义挖掘的个性化信息推荐设计

摘要:该文首先介绍了介绍Web知识挖掘的实现流程和数据挖掘的基本原理及方法,通过对Web知识的分析,引出基于Web挖掘的个性化信息推荐流程。然后研究了基于语义层次Web的个性化信息推荐的方法包括用户兴趣的感知方法、用于兴趣的捕获方法等,在此基础之上,利用导出语义层次的Web使用文档和生成个性化推荐的Web页面集,并详细介绍了如何在语义层次上分析Web使用文档,并利用定义权重的计算方法生成Web页面集的重要度等方法,并对Web个性化信息推荐进行了详细的论述。

关键词:Web知识挖掘;语义挖掘;个性化信息推荐

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)08-1731-03

1 绪论

Web信息以计算机可识别的方式存储与互联网的某一个节点上,并且可以在任何需要的时候通过互联网传向其他节点。与其他环境下的信息相比,Web信息具有以下特点:

1)Web信息量大

2)Web信息非常复杂

3)Web信息是动态的

4)Web信息中的“垃圾”非常多

Web信息的多样性决定了Web挖掘的多样性。根据处理对象的不同,可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web文件的内容及其描述中获取有用信息的过程,可以用于Web页面特征提取、基于内容的Web页面聚类、Web页面之间内容的管理规则发现等;Web结构挖掘是从WWW的组织结构和链接中发现知识的过程,可用于Web页面分类,并由此获得有关不同Web页面之间相似度及关联规则的信息,并有助于发现权威Web站点;Web使用挖掘是从Web站点服务器日志中发现有用知识和模式的过程。Web站点服务器日志记录了Web用户的行为轨迹,分析这些数据可以帮助理解Web用户的行为,从而提供个性化信息服务。

2 Web用户兴趣模型

Web用户兴趣模型是产生个性化信息推荐集合的主要知识源,在个性化信息推荐中起到核心作用,其捕捉Web用户真实偏好的能力在很大程度上将决定个性化信息推荐的效果。目前研究比较多的方法是基于Web用户兴趣模型来发现用户的行为特征--项目评价矩阵的表示方法、基于向量空间模型的表示方法、基于本体的表示方法以及基于范例的表示方法等[2]。

1)项目评价矩阵

用该方法来发现用户的行为,并进行客观的评价。该矩阵是Web用户行为的抽象,也可以反映客户的兴趣。满足Web用户需求的对象是包含各种Web资源的项目,所以将Web用户兴趣模型表示为Web资源及其评价值的形式应该是最直观的。当然,在实际应用过程中,Web用户对Web资源的评价值还可以利用多种方法进行计算,并非一定南Web用户直接给出。

2) 基于向量空间模型的表示方法

基于向量空间模型的表示方法是:用户的Web访问行为当做是一些列的向量表示,在向量中,每一维代表用户访问Web时的特征词条以及在词条上增加的权重。在具体的实现过程中,首先需要将项目(Web资源)表示成n个特征词条及其权重形式,进而将Web用户兴趣模型表示为n维向量空间的形式。显然,相对于第一种方法而言,基于向量空间模型的表示方法以特征词条为基础描述Web用户兴趣,能够较深入地揭示Web用户兴趣。虽然这种方法适用范围较广,也是当前大多数系统中所采用的表示方法,但是将项目(Web资源)转化为n个特征词条及其权重形式,必将丢失一些重要信息,从而导致最终构建的Web兴趣模型存在不足[3]。

3 基于Web挖掘的个性化信息推荐流程

个性化信息推荐的实现需要以Web用户兴趣模型为基础产生面向特定Web用户的信息推荐集。显然,Web挖掘的功能之一就是找出大量看似无关的信息之间的联系和规律,从而构建Web用户兴趣模型。首先,Web站点服务器日志记录了Web用户的行为轨迹,Web使用挖掘能够从中发现有用的知识和模式。这些知识和模式描述了Web用户的一般行为规律,是构建Web用户兴趣模型的关键。其次,Web内容挖掘能够实现Web页面特征提取、基于内容的Web页面聚类、Web页面之间内容的关联规则发现,它们都可以用于构建Web用户兴趣模型。最后,Web结构挖掘可用于Web页面分类,并由此获得有关不同Web页面间相似度及关联度的信息,同样可以用于构建Web用户兴趣模型。此外,由于Internet传输协议HTTP的无状态性以及客户端和服务器端缓存的存在,Web站点服务器日志数据是非常粗糙的。此时,就需要利用Web结构挖掘帮助处理Web站点服务器日志数据,进而为Web使用挖掘和Web内容挖掘提供高质量的数据集合。据此分析,Web挖掘与个性化信息推荐的融合应该成为研究的重点。图1描述了基于Web挖掘的个性化信息推荐流程。

3.1 基于Web文本的用户学习兴趣感知

兴趣足一种人对事物的积极认识倾向。这种认识倾向只有在比较稳定的情况下(即能够维持较长的时间),才能形成人的兴趣。学习兴趣是兴趣的一种,是推动学生探求知识并带有积极情绪色彩的一种个性倾向。激发和培养学牛的学习兴趣,对巩固学生学习动机、调动学习积极性、提高学习效率都具有重要意义。

构建用户的兴趣模型有两种方式:显式和隐式。显式的方法需要用户参与,要花费一定的时问和精力,而且用户的兴趣可能是过时的。隐式的方法不需要用户的参与,它自动捕获和更新用,的兴趣。根据所收集的用户数据源的不同,隐式的用户建模方法呵以基于用户行为,或者是基于用户访问的Web页面的内容,或者同时基于两者。

基于用户行为的方法观察用户的动作,例如点击鼠标、访问时的停留时间、访问次数、导航路径、保存、编辑、修改、下载、输入的查询关键词等。这个方法能通过关联规则发现用户的兴趣并基于使用的聚类方法获得用户的兴趣模型。但是,因为发现的关联规则只是针对已访问过的网页,故只能给新用户推荐那些老用户经访问过的页面,而不能推荐那些老用户没有访问过的贞面。

基于内容的方法分析用户访问过的页面内容。Kim等提出了一种分裂的层次聚类方法,通过学习用户所作的Web页的标签来构建用户的兴趣层次模型。这种方法只能推荐和用户已访问过的资源内容相似的资源,一些研究表明用户觉得“出乎意料”的资源更有价值。

混合的方法基于用户的行为和用户访问过的页面的内容。Traikova和Gauch基于预设的本体构建用户的模型。Tan等利用本地的自治器觉察用户的动作,然后利用学习算法得到用户的兴趣模型。这些方法能提高推荐结果的可用性和准确性。

用户的访问行为多种多样,如点击,拖动滚动条等,但在揭示用户兴趣方面,各种行为的重要性是不同的。单一的点击动作并不能有效的揭示用户兴趣,要综合考虑浏览时间、鼠标在页面上的移动时间和点击次数、拖动滚动条的时间、用户收藏、邮寄、打印、保存和复制等行为的情研。

3.2 学习兴趣的捕获

智能网络学习环境中用户兴趣发现体现为不但能自动识别用户的当前兴趣,发现用户自发的兴趣(若要达成特定的学习效果的话,自发的兴趣不一定合适),更重要的是根据学习科学研究和人类学习的规律(如记忆遗忘规律等),给出能促使其提高学习效率、但凭借他以前的知识基础还没有办法得出的、应该访问的内容,即系统要智能化地对兴趣进行指导、调整、激励。

个体的认知发展和学习过程密切相关,故利用建构可以很好地描述人类学习过程中的认知规律,即建构主义学习理沦。建构主义学习理论是认知学习理论的一个重要分支。认知学习理论不同于把学习者作为知识灌输对象的行为主义学习理论,认知学习理论把学刊者看做是信息加工的主体。

上一篇:基于BP神经网络的混凝土早期弹性模量的预测 下一篇:OPC技术在数字监控系统集成中的应用