基于语义模型的信息推送平台研究

时间:2022-09-04 11:08:45

基于语义模型的信息推送平台研究

【摘要】为解决汽车行业新闻语义关联划分问题,建立了基于语义模型的信息推送平台,通过对采集信息进行语义属性标注,实现信息间的关联与整合,以及信息的个性化主动推送。研究发现基于行业数据建立起的企业、品牌和车型的语义模型,将行业标识扩展到语义层次上,克服了关键词表示的缺陷,能很好地完成信息资源的划分。

【关键词】语义模型;推送平台;汽车资讯

1.前言

信息推送服务相对于传统信息获取方式,是一种根据用户个性需求,快速有效地获取信息的方式,具有主动、个性化的特点,优势在于用户能在第一时间获得整合后的信息,减少信息获取的时间,提高效率。

目前,国内外网站应用信息推送技术较多,主要包括推送新闻资讯、标准信息等。在汽车行业媒体方面,盖世汽车、MotoLink推出了电子邮件形式的主动推送服务,但信息之间没有建立起联系。在其他行业方面,美国Beaconpush公司,基于云计算技术,以网站窗口进行实时消息推送服务,能够通过网站后台API向网页前端用户发送实时消息,任何打开页面的用户都将收到该消息。我国的国家标准文献共享平台推出了针对标准数据的信息推送服务。根据用户的个性化标准文献信息需求,依据标准文献数据库,以电子邮件形式定期向用户发送所关注标准文献的、更新、替代、作废等信息。在推送客户端方面,主要包括网站窗口、电子邮件和移动设备,尤其在移动客户端方面,推送服务已经成为成熟应用的标准功能。在推送平台应用的内容推荐、过滤、整理技术方面,主要为基于内容关键字的过滤系统,如Personal WebWatcher、WebACE等,利用资源与用户关键字相似性来顾虑信息,优点为简单、高效,缺点是难以发现具有语义关联性质的信息,而语义技术通过本地建模解决了上述问题[1]。

目前,在汽车行业尚无针对主流行业网站咨询信息使用语义技术进行整合,实时推送的平台。

2.语义匹配度计算模块

语义匹配度计算模块以语义本体模型为基础,通过调用基于深度与密度的相似度算法计算提取的信息关键词与本体概念的相似度,以进行实时采集信息的分类操作。

2.1 汽车行业语义本体模型构建

本体的开发和完善是一个反复的叠加过程,通过确定专业领域和范畴作为开发领域本体的起点。信息推送平台使用本单位积累的资讯分类和数据库作为本体构建的基础。本体类的定义,层次间的关系,属性的定义等都是本单位相关领域专家结合自身专业知识积累,在借鉴成熟的本体模型基础上建立起包含系别、集团、车辆类型、生产企业、品牌和车型的领域本体。

2.2 基于语义模型的匹配计算

3.基于语义模型的语义标注

针对采集信息进行语义标注是指将采集信息划分为某个列别的实例。然而,随着宏观外部状况、汽车行业发展方向的调整,相关行业资讯也将出现变化,将存在部分实例不能被标注的情况,此时,将进行本体的自适应完善过程,以便采集信息被恰当的标注。

3.1 语义标注

将聚、分类技术与信息网资讯信息语料库(ODP)有机结合,根据语义匹配度计算结果对数据进行标注。完成了根据元数据、匹配度值确定采集信息所属概念的计算。另外,通过聚类技术生成针对资讯信息的元数据,并将生成的概念进行映射,根据ODP中的层次关系确定被映射概念间的层次关系。

3.2 语义模型的自适应学习

随着资讯信息的增加,启动学习模块驱动语义模型自动学习,以实现模型丰富。主要有以下几种变化情形:新概念的产生、多概念的合并、概念的分裂和概念中心的漂移[3]。

基于语义本体模型,按照产品子品牌(车型)、品牌、企业和集团的匹配顺序,计算语义匹配度,实现信息的关联划分。在大类别划分的实现方法上,使用LIBSVM进行计算,包括了训练和分类两大步,按照轿车、多功能车、新能源汽车、客车、载货汽车、专用车、摩托车、发动机、零部件、政策法规等栏目人工标注已有的汽车新闻网页做为多类数据训练分类器,然后对新网页进行分类。在自动分类后,利用人工对分类错误的网页进行标注、调整。

4.系统实现

在系统架构方面,推送平台从总体上将分为存储层、标注层、服务层三大部分。其中,存储层分为语义存储和资源存储两个部分,分别为Oracle数据库对语义本体进行持久化存储和获取的网页资源信息;标注层基于语义模型对采集信息实现分类;服务层已实现网站窗口、电子邮件、移动客户端作为推送方式。

现在越来越多的互联网公司采用微门户的方式向其用户推送新闻,例如腾讯,搜狗,迅雷等公司,因为微门户有着更精确的受众,更集中的热点新闻,本平台也利用了这种方式进行信息推送。图2是信息推送平台主界面。

在数据交互技术实现方面,以JSON格式进行数据的交互,在推送平台上根据关键字获得推送内容和推送位置,生成包含数据个数、新闻题目、来源、日期、类别等内容的JSON数据串。客户端通过解析即完成信息的推送和读取。

5.结论

本文实现的信息推送平台首先以网站窗口、电子邮件作为推送客户端,下一步拓展到移动客户端方面。通过语义匹配度计算、模型自适应生成完成了对采集信息的分类。存储层分为语义存储和资源存储两个部分,分别为Oracle数据库对语义本体进行持久化存储和以中国汽车工业信息网积累的行业信息。

参考文献

[1]徐青云.信息推送在个性化信息服务中的发展趋势[J].现代情报,2010(03):55-57.

[2]王文斌.语义网中的本体构建技术[D].天津:南开大学,2009.

[3]张瑞玲,王文斌,王秀峰,陈秋双.实例驱动的自适应本体学习[J].计算机工程与应用,2009(28):31-34.

作者简介:

张海波(1978―),男,天津人,学士,高级工程师,现供职于中国汽车技术研究中心。

王文斌(1982―),男,天津人,硕士,中级工程师,现供职于中国汽车技术研究中心。

上一篇:设备故障数据记录装置的设计与实现 下一篇:氨纶卷绕系统研究与改进