基于多源数据匹配的企业实体信息抽取系统

时间:2022-05-11 10:13:15

基于多源数据匹配的企业实体信息抽取系统

摘要:当今社会,随着互联网的飞速发展及其网上用户的增多,网络上可访问到的各种信息数据也在呈现指数级增长。如今,互联网已经发展成为一个全球性的、海量的、分布和共享的信息的一块公共空间,正成为人们日常生活的一个不可或缺、极其重要的组成部分。

关键词:网络;数据匹配;企业管理

中图分类号:TP391 文献标识码:A文章编号:1007-9599 (2011) 05-0000-01

Business Entities Information Extraction System Based on Multi-source Data Matching

Lin Kan

(School of Software Engineering,Tongji University,Shanghai201804,China)

Abstract:Today's society,with the rapid development of Internet and online users increases,the network accessible to all kinds of information data is also growing exponentially.Today,the Internet has developed into a global,mass,and the distribution and sharing of information,a public space,everyday life is becoming an integral and very important part.

Keywords:Network;Data matching;Business management

一、维度匹配模型的建立

声誉是指企业的信誉,资质和认证等。在通常情况下,我们去了解一家企业,是从它的声誉开始的。为此我们可能需要花费非常多的时间,并且有时候我们可能还无法得到真实的数据。

位置信息是指企业的地理位置信息。这里的位置信息可以包括以下几个部分:1.企业总部所在地。2.企业分工所在地。3.企业生产所在地

企业类型是一个企业的重要属性之一。它包括企业的产品信息以及经营范围信息等信息。

二、原型系统的设计

这部分需要研究的内容包括公有数据获取的方式,公有数据的抽取方式以及私有数据和公有数据的整合方式。

1.公有数据的抽取方式:通过网络公开的API抽取互联网的公开信息获取公有数据。2.公有数据的处理方式:对获取的公有数据进行加工处理,选出有价值的信息。这部分主要通过API来进行,另外人工也会定义一些标准,辅助处理。3.私有数据和公有数据的整合方式:对加工处理后的公有数据与私有数据进行整合。

原型系统主要分为以下几个部分:

1.数据抓取模块。数据抓取模块主要指抓取网络上的数据模块。此模块主要通过Google Custom Search API来进行网络内容的抓取,由于原型系统是属于电子商务领域的,所以需要根据其特点进行定制化。其设计及实现将在后文详细阐述。2.数据结构化模块。数据结构化模块主要是指将非结构化,半结构化的数据进行结构化。此模块主要通过两款第三方API:Google Language API以及Zemanta API对数据进行结构化。其设计及实现将在后文详细阐述。3.数据加工模块。数据加工模块主要是指将结构化的数据进行加工。这里的加工主要是指根据我们建立的维度匹配模型和私有数据库进行二次处理,最后形成“有用”的数据。4.数据显示模块。数据显示模块主要是指将处理过的数据展现在浏览器上。这个部分将充分体现我们特有的数据模型所产生的结果。其设计及实现将在后文详细阐述。

三、测试结果分析

我们将设计两组设计测试用例,以求比较测试结果,验证测试结果。两组测试用例分别为:

(一)普通网页搜索测试用例。通过输入客户名称,利用Google对其进行网页搜索,得到企业描述结果。

(二)维度匹配模型搜索测试用例。利用我们的维度匹配模型,通过将结构化网络非结构化,半结构化数据转换为结构化数据,并利用私有数据库中的信息,对企业进行描述,比较结果。

对于“普通网页搜索测试用例”,总共有五十五家公司的信息可以在网络上搜索得到,占比83.3%。

无用信息:44家。这里的无用信息指的是可以从网络数据中,查询出公司的企业类型,声誉,位置信息等。

非该公司:1家:中南数控机床。由于此处的中南数控机床位于昆山,而网络上还有一家同名公司:位于南通。由于南通的中南数控机床的PR值显著高于昆山的中南数控机床,所以出现此情况。

有用信息:10家。这里的有用信息指的是可以从网络数据中,查询出公司的企业类型,声誉,位置信息等。

对于“维度匹配模型搜索测试用例”,可以把最终结果分为以下几类:

无用信息:34家。这里的无用信息指的是可以从网络数据中,查询出公司的企业类型,声誉,位置信息等。

翻译错误:1家:昆山市玉山镇贵城贸易有限公司。由于翻译问题,此公司的企业类型出现偏差。

有用信息:20家。这里的有用信息指的是可以从网络数据中,查询出公司的企业类型,声誉,位置信息等。

搜索失败:11家。由于此处没有加入私有数据库中的信息,所以没有搜索到相关信息,结果同“普通网页搜索测试用例”。如果加入私有数据库,则搜索失败的11家公司都将可以找到,并提高了结果质量。

综上所述,我们可以发现采用了维度匹配模型显著提高了有用信息的获得数目。我们认为维度匹配模型能够比较准确的描述电子商务领域的中小企业;模型是成功的,有效的。

四、总结

本文为了更好的描述电子商务领域的中小型企业,通过对数据存在形式以及数据匹配模型的研究,提出了新的匹配模型:维度匹配模型。通过将多源的数据:互联网上存在的非结构化的数据,半结构化的数据转换成结构化的数据,并结合私有结构化的数据,从而达到准确描述中小型企业的目的。

参考文献:

[1]Yan Liu,Qin Liu,Mingguang Zhuang and Qingling Wang,“An event-driven approach for E-Services System design” 2008 4th International Conference on Wireless Communications, Networking and Mobile Computing (WiCOM),2008

[2]Sathyan,J andShenoy, K,“Realizing Unified Service Experience with SaaS on SOA,” Communication Systems Software and Middleware and Workshops,2008

上一篇:电子商务中数据库的应用 下一篇:静态网页生成技术初探