对象识别研究模型分析

时间:2022-07-17 01:54:49

对象识别研究模型分析

摘要:由于网络信息的分散性,基于不同数据源的数据集成是目前非常重要应用领域。对象识别工作是与信息领域中的应用密切相关的。不同的应用系统会有不同的对象识别优化工作。对象识别的有效程度决定了数据集成后形成的全局数据库的质量。文中全面的介绍了目前比较经典的几种识别模型,并对其进行了深入的分析。

关键词:对象识别;上下文相关;多层联系;依赖关系

中图分类号:TP399文献标识码:A文章编号:1009-3044(2012)23-5511-05

Study of Object Identification Model

NI De-qiang1, CHANG Ming1,CHENG Tao-yuan2

(1.Anshan Radio and Television Bureau, Anshan 114001, China; 2. Beijing Baidu Network Technology Co., Ltd.,Beijing 100080, China) Abstract:Because of the dispersion of the network information based on different data sources, integration is a very important application areas. Object recognition work is closely related to the application in the field of information. Different applications have different object recognition optimization task. The object identification determines the quality of the global database. Comprehensive introduction to sever? al classic recognition model, and conducted in-depth analysis have.

Key words:object identification; context-sensitive;multi-layer contact;dependencies

1概述

由于存在于网络中的信息自身所具有的分散性,基于网络信息的数据集成是基于WEB的一个非常重要的应用。但是,不同的数据源对于对象的描述往往不尽相同,同一对象在不同时间段的属性也会有不同。因此,基于不同数据源的数据集成中对象识别是目前的一个研究热点。他所研究的主要问题是如何判断哪些记录对应着同一个对象。对象识别属于数据清洗的过程,一个数据库只有进行完对象识别才能很好的进行分析。在信息集成中构建统一数据库的过程尤其需要对象识别。最初也正是由于需要识别多个数据源中的数据的匹配问题才提出了对象识别。

对象识别工作是与信息领域中的应用密切相关的。不同的应用系统会有不同的对象识别优化工作。但是,从整体上来讲,对象识别工作可以分成两个部分:如何计算记录间的相似度和如何减少比较的数量。在计算记录间的相似度时,大量的研究工作集中在如何计算对应属性的相似度上,然后使用一定的公式合成各个属性的相似度。减少比较的数量,可以加快对象识别的进行。

2对象识别模型

随着计算机的应用越来越广泛,信息集成也越来越多,导致在数据库中进行对象识别的需求也越来越多。因此近年来数据库中进行对象识别的技术收到研究人员的广泛关注,已经开发出来了大量的系统,提出了大量的模型。

2.1上下文相关的对象识别

文献[1]是新加坡国立大学的研究工作,提出采用作者表象的上下文属性来进行对象识别,判断两个不同名的表象是否对应同一个人。在论文数据库中,作者表象的信息非常有限,在大部分情况下只是一个名字,没有邮箱,身份证号码等区别信息。Mong Li Lee等人第一次提出了“上下文属性”(context attributes)的概念,也就是在论文数据库中,论文的标题、发表时间,所属国际会议(杂志)、作者、出版社等属性中,到底哪些属性和要识别的作者属性是相关的。只有识别出相关的属性后,才能利用这些相关属性进行对象识别。

论文中提出了采用关联规则来查找属性值之间的相关性:一个属性的某个值与其他属性的某个值是否经常共同出现。在查找到的所有关联规则中,如果某一个属性的值和作者属性的值会产生很多的关联规则,那么这个属性就是作者属性的一个相关属性。例如,作者A和作者B经常一块出现,作者C和作者D经常一块出现。这样的规则频繁出现,可以知道合作者就是作者的关联属性。在判断过程中,由于一个作者通常会参加多个国际会议,作者和国际会议之间的支持度不是很高。例如,"Andrew McCallum"参加的国际会议包括"SIGKDD","ICML"和“NIPS”等。但是,"SIGKDD"、"ICML"和“NIPS”等国际会议都在相近的研究领域中。论文中提出由领域专家给定国际会议对应的研究领域概念层次树,如图1所示,然后判断作者和研究领域之间是否存在关联规则。

(2-8)

利用这样的连通模型,以最大连通子图为中心的众多连通子图构成相关网页的集合,而其他的网页就可以认为是不相关网页。

除了利用页面之间的超链接关系,作者提出利用BIB(Bootstrapped Information Bottleneck)聚类方法对于众多的网页根据内容进行聚类。在检索出的网页中,相似的文档应该具有类似的关键词,而类似关键词的文档分布也大致相同。在计算网页的聚类时,首先把所有的关键词放入一个大的聚类中,同时每一篇文档都作为一个独立的聚类。然后,关键词的聚类根据他们在文档中的分布进行分裂,而文档根据他们对应关键词的特点进行合并。这样,两个聚类方向互相进行启发,直到聚类完成。

采用上面的两种方法单独建立的聚类结果,可以进行合并。在BIB聚类方法中,选择和超链接分析中的最大连通子图大小最相似的聚类C,利用和这个聚类C存在覆盖关系的链接分析中的聚类,生成一个新的聚类0*C作为最大连通子图聚类。使用0*C替换公式(2-8)中的0C,可以获得更加准确的相关网页结果。

在大量的基于不同数据源的数据集成应用中,对象识别的准确性直接决定了集成后获得的全局数据库的可用性。该文比较全面的介绍了目前对象识别问题中研究人员提出的典型识别模型,包括:上下文相关的对象识别、基于多层联系的对象识别、基于依赖关系的对象识别、利用基于辅助数据源的对象识别、利用网络信息的对象识别模型。并对上述识别模型进行了比较深入的分析。

[1] Lee M, Hsu W,Kothari V. Cleaning the spurious links in data[J]. IEEE Intelligent Systems, 2004.

[2] Glen Jeh,Widom J. SimRank: A measure of structural-context similarity[C].Proc. Of SIGKDD, 2010.

[3] Xi W, Fox E A, Fan W.SimFusion: Measuring Similarity using Unified Relationship Matrix[C]. Proc. of SIGIR, 2005.

[4] Xi W, Fox E A, Fan W.SimFusion: Measuring Similarity using Unified Relationship Matrix[C].Proc. of SIGIR, 2008.

[5] Dmitri V Kalashnikov,Sharad Mehrotra,Zhaoqi Chen.Exploiting relationships for domain-independent data cleaning[C].SIAM Internation? al Conference on Data Mining (SIAM SDM), 2005.

[6] Dong X, Halevy A, Madhavan J.Reference econciliation in Complex Information Spaces[C].Proc. Of SIGMOD, 2008.

[7] Michalowski M,Thakkar S,Knoblock C A..Exploiting secondary sources for unsupervised record linkage[C].IIWeb, 2008.

[8] Bekkerman R, McCallum A.Disambiguating Web Appearances of People in a Social Network. [C].Proc. of the WWW, 2005.

上一篇:大片大场景我也能做 下一篇:NFC 移动生活的主角