构建以专利为核心的科技大数据平台以促进创新的设想

时间:2022-05-16 02:51:37

构建以专利为核心的科技大数据平台以促进创新的设想

摘 要:随着我国知识产权行业的发展,专利申请量不断创出新高。2015年中国发明专利申请量突破100万件,同比增长18.7%,连续5年位居世界首位。我国已经积累了海量的专利数据,同时也积累了大量的非专利数据、应用数据、检索数据等,并且建立了相应的检索系统和分析系统。本文分析了以专利为核心的科技文献大数据的现状,提出了基于大数据关联与整合思路和基于专利信息服务产业链整合思路的两个创新应用观点,并从“五个一”的建设内容、六大关键技术等方面阐述了以专利为核心的科技文献大数据信息服务平台的构建设想,最后从产业整合、信息服务、成果转化、价值评估、数据挖掘等5个方面强调了大数据服务平台对促进创新的作用。

关键词:专利;大数据;科技文献;信息服务;创新

中图分类号:C931 文献标识码:A

作为具有国家知识产权局背景的专利信息服务行业领导者之一,知识产权出版社多年来积累了大量的国内外专利文献数据和非专利科技文献数据。2014年~2016年,我们的数据收集范围从专利扩大到商标、标准、科技期刊、知识产权和创新类图书等,专利信息也从单纯的文摘和全文扩展到法律状态、审查文件、流程信息、运营信息、复审和无效决定、知识产权司法判例等,数据量从1亿扩大到近5亿,数据量达500TB。如此巨大的数据量必须得到有效应用才能产生巨大的价值,推进我国技术创新和科技发展。现在有很多专利信息服务商能够提供传统的专利检索和分析服务,但是都仅限于专利,而且数据质量参差不齐,不够全面、准确和权威,服务价格相对较高。如果能以知识产权出版社的大数据为基础,进行整合加工处理,并进行大数据关联,构建一个以专利为核心的科技大数据信息服务平台,向终端用户提供质优、价低、权威的“一站式”信息服务,以及在此基础上的专利大数据管理、运营、交易等扩展服务,则可以更好地促进我国的知识产权和科技创新工作。

一、专利与科技文献大数据现状及创新应用分析

(一)现状分析

以专利为核心的相关科技文献数据有较大规模。根据我们当前所积累的与专利相关的科技文献数据,总体分为专利文献数据、非专利科技文献数据(二者合称为核心资源数据)、检索数据、应用数据、平台数据和管理数据。具体包括:

1. 核心资源数据

主要分为专利数据(含审查过程数据)、商标数据、标准数据、法律文书数据、期刊数据、其他数据。主要内容如下:

(1)中国专利全文文本数据;

(2)国外专利全文文本数据(包括美国、欧洲、日本、韩国、世界知识产权组织WIPO、英国、德国、法国、瑞士、奥地利、加拿大、澳大利亚等);

(3)国外专利著录项目数据(共包括100余个国家及地区、组织);

(4)中外专利法律状态数据;

(5)中外专利引证文献数据;

(6)中外专利生物序列数据;

(7)中外专利化学结构数据;

(8)中外期刊元数据数据库;

(9)中外标准数据;

(10)中国知识产权类法律文书数据;

(11)知识产权法律法规数据;

(12)中国商标数据;

(13)美国商标数据;

(14)马德里国际商标数据;

(15)知识库及词表数据库;

(16)中外专利说明书及附图全文图像数据。

2. 检索数据

主要包括为实现检索而收集整合的原始数据和加工数据,特别是各个检索字段。

3. 应用数据

应用数据包括专利检索数据和非专利检索数据(主要是检索表达式和检索结果)、专利分析数据、项目管理数据、大数据商城数据、客户服务数据。

4. 平台数据

平台数据包括系统和网站的资源目录、表单、文本、图片、视频和网页。

5. 管理数据

系统管理数据包括用户数据、权限数据、日志数据、统计数据、监控数据、运维数据。

根据我们当前的检索业务运行情况,数据检索日访问量在10万左右,数据记录与分析记录量在10亿,在线服务数据量在150TB左右。

(二)基于大数据关联与整合思路的创新应用分析

根据与专利相关的科技文献大数据内容分析,专利文献与非专利文献表现出很强的相关性,例如专利与科技文献间引证关联关系、检索内容关联关系、文献信息相似性关系等,需要用大数据关联的思想对其进行分析、挖掘和整合,将相关数据整合后对外展示和提供服务,产生一系列新的价值。

以专利为核心的科技文献大数据关联与整合的主要过程包括:

1. 对专利和非专利文献进行收集、整理、存储。

2. 对数据进行清洗、整合、深加工、翻译、代码化等处理。处理完成的数据经过大数据分析,采用数据挖掘算法、预测性分析、语义引擎等技术进行智能关联,将文献引证关系、技术关联性、新颖性、创造性、商业价值等展现出来,同时对部分内容进行人工或自动标引,提高关联分析的有效性。

3. 在此基础上形成应用服务,例如检索服务、分析服务、预警服务、专利价值评估、交易撮合服务、信息推送服务等。

其过程如图1所示。

(三)基于专利信息服务产业链整合思路的创新应用分析

科技文献大数据服务对知识产权信息服务产业链有非常巨大的整合作用,知识产权信息服务产业链中包括:直接服务供应商、间接服务供应商、整合服务集成商、最终客户等。其构成如图2所示。

我们未来的定位是从直接服务提供商向整合服务集成商转变,通过以专利为核心的科技大数据信息服务平台构建,来实现对产业链前后的业务进行整合。向后可以联合其他间接服务商利用其能力快速拓展业务,向前建立服务运营平台来为用户提供更多更好的服务,知识产权出版社作为平台服务者,与供应链上各个环节的用户共同创造价值。平台的核心作用是让各服务供应商基于平台的海量“大数据”灵活、便捷的构建自己的“小数据”,在此基础上创造自己的各种服务产品提供给最终用户。

二、以专利为核心的科技文献大数据信息服务平台的构建与展望

由于多年来不断地数据积累和各类应用系统的开发,知识产权出版社已有充足的数据资源储备和检索技术储备来构建科技文献大数据信息服务平台,提升数据服务,整合知识产权信息服务产业链。下面从用户群划分、大数据关联与检索技术、数据项目管理、大数据服务交易等几个方面考虑平台的功能:

平台本身的用户群划分要侧重于服务公众,尤其是中小企业和个人等缺乏创新资金的目标群体,同时为平台管理者提供完善的数据和业务管理功能。

平台采用的技术,一方面要自动进行专利数据与非专利数据的关联分析,另一方面要保证海量数据的检索性能和准确性,能以最高效的方式展现检索结果,直接命中用户最关切的部分。

平台应具备大数据项目管理功能,用户能将数据自定义划分成集合,在此基础上进行个性化加工,形成定制化的数据产品和服务。

为了提高专利创新能力,平台还应该提供大数据服务交易平台,构造专利价值评估体系,建立大数据商城,提升专利价值,“盘活”数据,促进创新。

(一)主要建设内容

对于将要建立的科技文献大数据信息服务平台,其主要内容应该包括“五个一”:

1. 构建一个以专利为核心的知识产权产大数据平台,提供大数据管理和访问服务支撑,包括建立大数据存储架构、提供高效的检索服务与分析服务、提供统一的数据展现。

2. 构建一个以基础服务为支撑的运营平台,未来基于专利核心数据以及相关的科技文献数据,开展检索、分析、评估、交易等多元化的市场运营,并为知识产权产业链上的各个环节提供更为开放的服务支撑,包括提供统一的客户管理、产品(服务)管理、供应商管理、计费管理、交易支付、资源(项目数据)管理等功能。

3. 构建一个统一的应用开发支撑平台,为以数据为支撑的各个应用开发组提供统一的基础服务和应用组件,使各开发组直接可以复用平台基础功能,或降低技术难度和开发风险,提升开发效率,并让各开发组将精力集中于向用户提供特定服务的功能上。包括统一的用户权限管理组件、系统日志服务、消息服务、自然语言处理组件、翻译服务、数据可视化展现组件、知识库管理组件、消息队列组件等。

4. 通过构建统一的技术架构解决方案,提高各个应用质量,提升最终用户的体验,提高系统的性能、稳定性、安全性以及可扩展性,降低总体成本。包括负载均衡解决方案、分布式缓存、分布式服务、分布式存储解决方案、安全服务解决方案等。

5. 通过构建统一的管控平台,对各个应用系统进行统一管理从而提升运维质量,并提供运维辅助工具来降低运维成本。包括系统监控平台、自动化运维工具、数据核查和修改工具等。

(二)平台关键技术

1. 大数据存储技术

科技文献大数据存储需求包括3部分:

(1)传统结构化数据库,存放系统基础数据、专利及非专利结构化数据、操作数据等。

(2)大数据存储,存放海量文件,主要是专利和科技文献全文、附图、外部文件、部分关联关系等。

(3)检索数据库,检索引擎自身配置的数据库,存放检索索引、关联关系等。

其中大数据存储要解决的问题包括:数据源多、分布式存储、海量文件、快速存取以及存取结构应便于统计和分析等。

因此,大数据存储架构设计是一个分布式文件系统,用以实现专利和科技文献全文、附图、外部文件、部分关联关系的分布式存储。它有高容错性的特点,并且部署在价格较为低廉的硬件上;而且它提供高传输率来访问数据,适合那些有着超大数据集的应用程序。

大数据存储的分布式架构,将大数据处理引擎尽可能地靠近存储,实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里,采用的具体技术包括分布式文件系统、分布式并行数据库、映射规约处理模式等。

2. 大数据管理及检索技术

科技文献大数据管理主要面临以下几个问题:

(1)专利与非专利数据检索涉及海量数据,且随着业务发展,数据量日益增加。

(2)系统用户广泛,需要在支持高并发量的同时,保证检索性能。

(3)系统稳定性是衡量一个应用系统的重要指标,需要保证不会因某个节点设备的异常,而影响整个系统对外所提供的服务。

(4)需保证系统的高可扩展性,可通过增加节点方式,扩展系统容量与对外服务能力。

(5)支持结构化、半结构化及非结构化数据的统一检索。

大数据管理及检索架构设计采用了大数据管理系统并提供大数据检索服务,其处于提供全文检索服务的基础组件位置,即基于分布式或虚拟化技术的硬件支持,为所有通过二次开发接口进行检索的请求提供响应服务。大数据管理系统与实现大数据存储的数据库处于同等地位,只不过数据库负责数据存储,大数据管理系统则负责数据当中非结构化数据的全文检索。

大数据检索工具应具备以下技术特性:

扁平化设计,弹性扩展;异常感知、自动恢复;柔性多引擎技术;高效分区索引机制;多副本机制;混合索引方式;内存表与列存储;异步检索;多层次、多粒度的分布式缓存;可扩展的检索模式,同根词检索,算法和词典结合的英文词根检索,支持基于同义词、主题词的扩展检索。

3. 大数据智能化检索及分析技术

数据智能化检索和分析技术的目标对象是结构化、半结构化或非结构化数据,包括自然语言文本为对象的数据挖掘技术,它是从大规模的结构化数据和文本数据集中发现隐瞒、潜在的和重要规律的过程。首先从数据和文本中提取适当的特征,表示成计算机能理解的形式,然后采用各种挖掘方法发现隐藏的知识模式,最后以用户可以理解和接受的形式输出。

针对专利检索、特别是智能高级检索,大数据检索涉及到了词库管理、概念识别、文本抽词、关键词扩展关联、相关度计算等内容,这些功能将基于数据智能化检索和分析技术来实现。具体技术包括:自动分词、文本聚类、自动分类、自动重排、自动摘要、主题词提取、信息抽取、常识校对、拼音检索、相关短语检索、关联关系分析、内容过滤等。

4. 大数据展现技术

对用户友好的展现大数据分析结果是提升大数据价值的一项重要工作,如何基于分析数据集进行形象、直观的数据可视化展现是平台的关键技术点之一。数据可视化展现的核心是通过各种复杂的图形,直观地将数据中包含的内在关系以人们更易接受的方式展现给用户,在平台中数据可视化展现的关键技术主要在于以下方面:

(1)丰富的图形功能。图表展示组件需要提供各种图形的展现形式,除了基本的线图、饼图、区域图,还应提供漏斗图、金字塔图、线性波谱图、子弹图等多种图形来满足各种分析功能的图形展现。

(2)支持多种数据格式。包括XML、JSON、多元数据组等多种接口的数据格式。实现专利分析与分析服务的一体化标准,能够支持未来其他用户根据分析要求自行开发相关的应用功能。

(3)有优秀的兼容性。能够不依赖于任何Active-X或扩展控件并兼容多种脚本语言,能够支持未来广泛用户的使用。

(4)有良好的开放性。能够提供二次开发接口,支持用户自行开发相关的分析产品,支持复杂的图形展现(例如专利人合作关系等的展现)。

5. 大数据项目管理体系

数据项目的建立是为了帮助用户更好地管理自己生成的操作结果,方便后续工作的使用。基于此,平台应提供独立的管理功能,并提供对其他功能接口的调用。用户可以通过此模块建立多个项目,每个项目是若干个数据存储单元的集合。数据集合以树形结构存储,每个数据集合包括但不限于形成当前数据集合的检索式、专利数据和数据分析结果等内容。一个项目是由多个数据集合包构成,每个数据集合包又可以由下一层数据集合包或者一组专利的集合构成,每个专利包括著录项目、标准信息、标引信息、加工信息以及大数据包等内容构成。大数据项目管理功能应包括:项目信息展示、项目管理基本操作、项目内容管理、内容统计分析、文献多方式浏览等。

6. 大数据服务交易平台技术

科技文献大数据信息服务平台中应构建服务交易平台,数据商城是其特色功能之一:作为卖家,用户可在数据商城中实现专利分析报告、专题数据库和专利文件资料包的销售,还将实现应用工具和专题数据库的定制服务。在商城中可实现商城信息的检索、导航、在线订购、支付、交易确认、点评等业务。系统的注册终端用户均可作为买家参与商品交易,提供服务产品的注册用户兼具卖家的身份。

如何实现数据商城的可持续发展,确保数据商城能够汇聚众多专利服务需求者和供应者,在业务设计上要借鉴互联网思维,对数据商城进行有一定的前瞻性、超前性的设计,为用户提供创新性的服务,并形成创新的服务模式。其业务重点在于对交易过程进行全面地梳理、对流程进行细致地规划、设立完备的纠纷解决机制、建立账务管理体系对交易资金进行全面管理,并通过为用户提供智能化供需信息匹配服务等交易撮合功能来提升用户体验。

三、科技文献大数据信息服务平台在创新工作中的作用

以专利为核心的科技文献大数据信息服务平台建立后,通过大数据的关联与整合,在产业链中占据了枢纽地位,整合了上下游,并可在此基础上,开发出多种数据服务促进创新工作。

(一)整合专利相关科技文献信息服务产业链,促进用户创新

平台将上游专利和相关数据源、服务、软件进行整合,面向下游用户,提供整合后的智能服务。组织链条上各个供应商,利用各自的优势,通过不同服务者的合作来满足用户的最终要求。实现了上游数据与服务的增值,整体上提升了对下游最终用户的服务水平,由此促进了最终用户的创新工作。

(二)提供低成本的智能化服务,促进中小企业创新

企业在创新的过程中需要检索大量科技文献,对于大型企业来说,可以采购科技文献数据库,建立自己的检索系统或者购买相关机构的专业服务。但是,对于小企业和普通科研人员来说,传统的免费检索效率太低,依靠专业机构则大幅增加了创新成本。

科技文献大数据信息服务平台将提供一套智能化检索服务,给不熟悉科技文献检索的用户提供完善指导,比如自动分类、标引、导航,自动化的相关文献分析,自动化的信息推送和预警分析等。系统的智能化程度达到部分取代专业机构的程度,能够给个人和中小企业提供近似于专业机构的查新服务。平台本身的检索服务可以采用免费或低费用的方式,大幅降低了个人和小企业的创新成本。

通过本平台,用户可以了解技术的最新进展,预测相关发展趋势;跟踪竞争对手的活动;发现和避免专利侵权行为;充分利用失效专利经济和技术价值;减少重复的研发项目。

(三)完善的信息推送机制,促进科研和成果转化

由于系统会根据大数据分析模型分析已有数据,并对新进入的数据进行关联分析,可以实现如下应用:

1. 平台自动分析客户以往关注的领域,然后搜寻相关新进文献,及时提醒用户其该领域的技术革新,并推送相关文献。

2. 平台还可以根据其他用户的检索式、阅读行为、文献引证关系,找出与当前用户关注领域相关的其他领域文献,将其推送给用户。拓展用户检索覆盖面,帮助用户寻找新思路,在其创新过程中起到自动化地进行科技情报收集的作用。

3. 对于正准备进行专利交易和成果转化的用户,平台提供智能的消息服务,通过对交易数据的分析和预测,提供发盘提醒、报价参考、同类产品比较、市场预警等服务。

(四)构建专利价值评估体系,促进规范化的专利交易

平台本身将提供一套专利价值评估体系,专利价值由评估模型、专业人工评估、专利交易价值等综合而成。专利价值评估可以配合数据商城为专利交易双方提供客观的价值判断,供交易双方参考,从而加强专利交易的可靠性,促进交易业务的发展。

(五)通过用户的大数据交易和数据挖掘利用,进一步促进创新

用户可以将自己生成的专利分析报告、专题数据库和专利文件资料包放到大数据商城中进行交易,所产生的利润反过来可以进一步促进用户对数据的深度挖掘和利用。对专利等科技文献数据的深度利用,会让用户能够收集更全面的信息,认识差距、找到创新点,又必将进一步促进创新的发展。

参考文献

[1]徐树振,罗学礼,王森,杨莉,段嘉杰,张德刚,企业非结构化数据检索研究[J].信息技术,2014(4):196-200.

[2]马惠芳.非结构化数据采集和检索技术的研究和应用[D].东华大学,2013.

[3] [美]Ian H. Witten, [美]Alistair Moffat [美].Timothy C. Bell著,梁斌,杨青译.管理海量数据:压缩、索引和查询(第2版)[M].北京:电子工业出版社,2014:26-98.

[4]郭建波.海量结构化大数据存储检索系统探讨[J].软件,2013(2):95-96.

[5]于海斌.基于知识发现的专利检索系统分析与设计[D].东北林业大学,2012:18-60.

上一篇:基于Linux内核的文件系统监控研究 下一篇:学校课程深度变革的五要素分析