基于农业本体的用户兴趣模型研究

时间:2022-09-27 04:40:03

基于农业本体的用户兴趣模型研究

摘要:为了有效解决传统用户兴趣模型查不全,查不准等问题,引入农业本体技术构建用户兴趣模型。该模型能在语义层次上理解用户的兴趣,因而在检索时能获取较满意的查全率和查准率,能更好的体现农户的个性化需求。

关键词:农业本体;用户兴趣模型;Web日志挖掘

中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)13-3180-02

Research of User Interests Model Based on Agricultural Ontology

YANG Shu-lin, TIAN Wei-dong

(Hefei University of Technology Institute of Computer Information, Hefei 230039, China)

Abstract:Agricultural ontology technology is introduced to build user interests model for effectively solving traditional user interests model fault . This model can understand the user in semantic level, and have satisfactory of recall ratio and the precision, its better to reflect farmer personal requirements.

Key words: agricultural ontology; user interests model; web log mining

用户兴趣模型是实现个性化信息服务系统的关键。基于农业本体用户兴趣模型有两种构建方案。一是直接用独立的本体表示用户兴趣模型。缺点是每次向信息源检索之前均要从本体库中检索兴趣概念关系。二是用户兴趣模型仅用本体的概念来表示,用户兴趣模型中并不存储兴趣概念之间的关系。

农业本体作为农业领域概念化模型,能够明确农业领域涉及的概念、概念的含义、概念间的关系,为简单的术语赋予明确的背景因素[1]。借助农业本体概念间的关系来扩充关键词组,在检索信息时,把关键词(本体概念)之间的关系考虑进来了,能有效提升系统的个性化服务水平,增加信息检索的查全率和查准率,提高个性化服务水平。

本文采用第二种方案构建用户兴趣模型。主要包括:用户兴趣模型的构建和表示、用户兴趣关键词的扩展、用户兴趣兴趣度的度量以及用户兴趣模型的修正等。

1 用户兴趣模型的构建和表示

构建用户兴趣模型的首要要素就是用户识别。在网络环境中对用户的识别有两种类型:一是基于匿名用户识别,常采用的办法主要是依据IP来区分,或依据IP与操作系统组合来区分或是服务器的Cookie技术,但是均不能百分百准确识别用户;二是基于非匿名用户识别。用户需在个性化信息服务系统注册成为普通用户。本文的用户识别主要针对注册用户,通过系统信息订制模块收集用户感兴趣信息关键词,表面上与传统的关键词信息订制方式相类似。

构建用户兴趣模型的第二个要素是兴趣关键词列表的构建。在用户注册时系统会提示选择信息订制内容,为保证订制内容(关键词)具有一定的代表性,供选择的订制内容是参照农业本体中概念来设置的,还可以保证基于农业本体扩展时,尽可能少的出现重复的兴趣关键词。从提高兴趣度方面考虑,当出现两个或多个概念上下位关系时,一律选择下位概念,并写入用户兴趣模型中。如同时订制了“蔬菜”和“西红柿”,系统会合并两个相近的兴趣关键词,只保留“西红柿”。

构建用户兴趣模型的第三个要素是兴趣关键词列表的表示。它不仅与兴趣关键词列表存储表示有关,还与关键词兴趣度大小计算有关。本系统对用户兴趣关键词列表描述为集合:U={(C,I,T,F)|C:关键词,I:为关键词兴趣度,T:为订制信息类型,F:为是否本体扩展,取值0或1, 0表示没有扩展,1表示有扩展},初始时,关键词兴趣度缺省值为1。

2 用户兴趣模型关键词的扩展

用户兴趣模型初步建成后,需要对用户兴趣模型中没有扩展过的兴趣关键词借助农业本体技术进行扩展,形成了兴趣关键词(概念)组,增强了对用户兴趣的语义理解。具体的扩展过程如下:从用户兴趣模型中,读取没有扩展的兴趣关键词(概念)。假设没有扩展的兴趣关键词集合为keyWordSet={key1,key2,….keyn},其中n表示没有扩展的兴趣关键词数量,keyi( 1

当读取没有扩展的兴趣关键词西红柿时,基于以上本体对西红柿概念进行扩展,分别读取西红柿概念的同义概念番茄和下位概念新红宝、粉贵人、加州518、黄金粉王。扩展后的新概念按照集合U中元素的格式被存储到用户兴趣模型中,与原来的兴趣关键词集合构成完整的用户兴趣模型。

3 用户兴趣模型关键词兴趣度度量

用户关键词兴趣度是衡量协会级用户对关键词感兴趣程度大小的一个量化指标,也是动态修改用户兴趣模型的一个重要参考依据。影响兴趣度的因素有很多,但主要因素有三个文献[2]:兴趣关键词的检索频率,兴趣关键词浏览时间和检索兴趣关键词的时间跨度,考虑到农户的特殊性,仅考虑前两个,即兴趣关键词的检索频率,兴趣关键词浏览时间。不考虑检索兴趣关键词的时间跨度原因主要有:一是农业生产具有一定的季度性,在每年只有一季农作物生产的地区的农户可能关注某个订制信息(概念)的时间间隔有半年多久,但这不影响对该概念的兴趣,二是农户或农业组织并没有专职人员负责信息的审核、推送工作,由于其它农事影响系统的使用时,检索兴趣关键词的时间跨度必然加大,但并不影响对该概念的兴趣。

定义Frequency(C),用来表示用户对某个概念C的访问频率。它是通过用户检索过程中与概念C相关的浏览次数S(C)与浏览的总次数S的比值来计算的,具体公式如下:Frequency(C)=S(C)/S

定义Itime(C),用来表示用户对某个概念浏览的平均停留时间。这个定义取决于两个因素:用户停留的时间、页面长度。可用概念C所涉及的文档的停留时间Time(C)和概念C所涉及的文档的大小Size(C)的比值来表示:Itime(C)=Time(C)/Size(C)

显然,用户兴趣度与概念的访问频率成正比,访问的比重d大,说明用户对该概念越感兴趣。同时也与概念的平均停留时间成正比,停留时间越长,说明用户对这个概念越感兴趣。

在一次检索中,概念C的访问频率是它所涉及的文档的访问频率之和,记作Frequency(C)计算公式如下:

其中,Doci是用户访问过的包含概念C的文档,Frequency(C)表示该用户对概念C的访问频率,N (Doci)为该用户访问文档Doci的次数;N为该用户访问资源的总次数。n为用户访问过的包含概念C的文档数量。

同样,一次检索中,用户对概念的平均停留时间,是用户浏览的所有包含概念C的文档的总时间与这些文档的大小的总和的比值,记为Itime(C),可用下列公式表示:

其中,Time(Doci)表示用户浏览文档Doci的停留时间,Size(Doci)表示文档Doci的大小,n为用户访问过的包含概念C的文档数量。对由于外来干扰影响用户在某一页面停留时间过长,并不能反映用户对这一文档的关注程度,可用本次计算时的平均停留时间来代替。

定义用户对概念兴趣度为计算为InterestRate(C),可表示为:InterestRate(C)= Frequency (C)(1-a)+a* Itime(C) /Total (ITime) ,其中a∈[0,1],为调结因子,可以根据实际情况动态改变概念C的访问频率和停留时间对兴趣度的贡献,Total(ITime)为本次计算所有兴趣关键字的停留时间总和。

4 用户兴趣词列表的维护

兴趣关键词数量经过农业本体概念扩展后会显著增加,用户检索的速度也会变慢,不利于用户模型的个性化和更新,需要对用户兴趣列表维护。本文采用过Web日志挖掘功能隐性改变用户兴趣模型,设定固定某个时段内,根据一定的规则修改或置换兴趣模型中的关键词的兴趣度。具体步骤如下:

步骤1、Web日志数据的过滤,去除不需要的信息的干扰。选取用户的ID、用户请求访问的页面及访问时间,其他属性可以去掉。

步骤2、提取用户名、请求访问的页面URL及访问时间存入数据库,实现数据存储的结构化,便于相关数据统计计算。

步骤3、遍历某个时间段内数据记录,载入访问的页面URL所对应的具体文档,通过规则表达式除去与分析无关的其它信息。

步骤4、对得到的语料进行中文分词,将文本转换一个词的集合A,并只保留所有兴趣关键词列表存在的兴趣关键词。

步骤5、保留下来的兴趣关键词则意味着该文档包含有兴趣关键词,用户对包含该概念的文档的访问次数就是用户对该概念的访问次数,包含该概念的文档访问时间和停留时间也就是关注该概念的访问时间和停留时间。

步骤6、上述过程得到的数据,根据兴趣度计算方法,修改用户兴趣模型中的各个兴趣关键词的兴趣度,从而得到用户兴趣模型的动态更新。

将用户反馈结果来修正用户兴趣模型的兴趣度,使用户的兴趣点再次聚焦。特别是具体到某一个农业协会,譬如蔬菜协会来说,他们可能真正关注是白菜和芹菜的农业生产,但经过农业本体扩展后,其用户兴趣模型中还可能出现他们并不关心的其它的青椒、黄瓜等蔬菜。经过修正用户兴趣模型的兴趣度后,可以去掉青椒、黄瓜等协会并不关心的关键词,向协会推荐他们需要的农产品信息。

5 总结

本文提出了一种基于农业本体的用户兴趣模型理论构建方法,详细介绍了用户兴趣模型的构建和表示、用户兴趣关键词的扩展、用户兴趣模型关键词兴趣度的度量以及用户兴趣模型的修正等。基于该模型构建的安徽农村信息精准推送平台和山东禹城农村信息精准推送平台在实践中检验说明,该兴趣模型能在语义层次上理解用户的兴趣,从而在检索时能获取较满意的查全率和查准率,提高了个性化信息服务系统的质量和水平。

参考文献:

[1] 钱平,郑业鲁.农业本体论研究与应用[M].北京:中国农业科学技术出版社,2006.

[2] 胡宜敏.农业搜索个性化平台的研究与设计[D].合肥:中国科学技术大学,2009.

[3] 石军,王儒敬,王志红.基于Web 数据挖掘的一种个性化方法[J].计算机工程与应用,2006(7):137.

[4] 潘红艳,林鸿飞,赵晶.基于ontology的个性化推送系统[J].计算机工程与应用,2005(20):176-199.

[5] 刘丽娜.基于Web日志挖掘的推荐系统的研究和设计[D].长春:东北师范大学,2008.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:基于SOPC的CAN_RS232接口转换器设计 下一篇:基于核函数的Adaboost分类算法研究