浅析检索系统中错误数据的控制

时间:2022-09-29 07:15:51

浅析检索系统中错误数据的控制

摘要:基于PC服务器下检索系统的迅猛发展,如何将检索系统中错误数据控制在最小范围以提高检索平台服务纠错质量,一直是非常重要的课题。

关键词:检索系统数据纠错

1、引言

在检索系统中,无论是单片机还是PC服务器,数据在经过系统的加工、存取和传送后,都将不可避免带来一定量的数据错误。为了减少和避免这类错误,一方面要精心选择各种电路、改进生产工艺与测试手段,来提高计算机硬件本身的可靠性;另一方面是在数据编码上找出路,即采用带有某种特征能力的编码方法,通过少量的附加电路,使之能发现某些错误,甚至能准确地确定出错位置,进而提高自动纠正错误的能力。

2、错误情报数据分析

2.1错误数据的种类:

⑴ 说明书不清楚,有残

⑵ 缺失性错误

⑶ 页码顺序颠倒

⑷ 申请人错

⑸ 发明人错

⑹ 申请日错

⑺ 发明名称错

⑻ 分类号错

⑼ 著录项目内容与公开文献不符

⑽ 权利要求中有乱码

2.2产生错误数据的原因:

根据数据在系统加工、存取和传输时由于硬件与系统条件所限和干扰等因素,数据不可避免会出现各种错误,此时数据将是一份不完整的或不完全正确的数据。通过对出现的误码进行分析得知,主要有随机错误和突发错误,前者是孤立出现的一个错误,而后者是连续产生的一批错误,错误类型有:数据残缺、数据冗余、数据变异。

3、数据纠错流程的设计

3.1数据分组

从终端机接收的数据通常是一连串的数据包,如XML-101228文件包

大小:10.4GB(11,206,211,138字节)

占用空间:10.8 GB(11,699,375,680字节)

包含:189595个文件, 1278个文件夹

服务器地址:192.168.5.123(XML数据服务器)

服务器地址:192.168.5.456(图形数据服务器)

服务器地址:192.168.5.789(文本数据服务器)

服务器地址:192.168.5.005(摘要数据服务器)

数据类型:1新数据、2更新数据、3补差数据

用户名:******

密码:******

这段数据中包括了数据的基本信息,因为数据类型是1,说明这批数据是新数据,如果数据类型是2,说明数据是更新数据;根据你管理员级别及密码,将不同数据传输到相应不同数据服务器中,只有分组正确,将相同数据添加在一起,才能进行准确地进行误码纠正,这是纠错的前提。

数据传输前后一定要进行数据文件核对:文件大小、文件数、文件夹数,记录数等,完全相等。

3.2规则库设计

为减少和避免数据错误,首先要精心选择高性能的检索平台,以改进数据传输与测试手段、提高计算机硬件本身的可靠性。

国家知识产权局在开发的外观设计检索平台就是基于PC服务器的Scale-Out架构, 这个架构采用可扩容的二级存储平台,它支持多种不同的接口类型、有独立扩大性能、有较高数据块I/O性能、高吞吐量及petabyte(约等于 2097 个 500GB 的硬盘)级规模存储容量。实现了给定某一篇专利文本或字串,其检索结果按相关度高低排列,并对专利检索结果进行聚类,将聚类结果进行可视化展示。实验证明它是个性价比最好的检索系统架构。

确定好高性能检索平台后,就要在检索平台的数据编码上找出相应的对策,即采用带有某种特征能力的编码方法,通过少量的附加电路,使之能发现某些错误,甚至能准确地确定出错位置,进而提高自动纠正错误的能力。在检索平台上建立规则库,就是为了让出错数据上带有特殊的误码,以提高自动纠正错误能力。

规则库是规则的集合地,它是对纠错规则的总结和归纳,即纠错规则表。在这个规则数据库中包含了密语表、在线题录信息表、文摘表、全文图形数据库、法律状态表、索引参数表、纠错推理过程表、纠错结果表等,误码纠正结果要存放到纠错规则表中。规则库是在控制系统操作下运行的。当修改的前提条件存在时,根据可操作数的信任度阀值的大小进行数据的纠正与修改。根据数据误码的特点,进行两次扫描,其目的是为了①纠正错误:将系统中的错误编码进行纠正;②语义检测:将不符合逻辑的纠正码进行再次纠正,使其符合实际意义。

3.3纠错步骤

首先整个网络安全体系必须贯穿于网络层、系统层乃至应用层的所有环节;标准化和规范化支撑整个体系,专家共同协商制订出修改数据规则,适用于整个网络;共享、一致的信息资源数据库是基础。

⑴填写数据纠错流程单,为后续修改数据工作打下良好基础。

⑵读取数据:读取要修改的数据,对该数据信息进行分组,然后查找分组后数据中误码,根据误码做相应修改。

⑶在检索系统上核实出错信息,以确定修改的库种。

⑷查找纠错结果表:查看是否出现过该误码的纠正结果。如果存在,则直接纠正该误码并做语义检查。否则,继续下面工作。

⑸在规则库中查找对应误码规则:当出现规则冲突时,取操作数信任度阀值最大规则的方法处理冲突。

⑹进行语义检测:必须结合上下文的内容综合判断该纠正码是否符合实际意义。如果语义检测符合逻辑,则该修正结果为最终结果,否则重新访问规则库,重新修改直至所有规则读取完毕。

⑺将最终纠正结果存入纠错结果表。

⑻在检索平台上检验修改数据结果。

⑼按照修改流程,将修改数据发放到所需的部门。

4、结论

本文主要探讨检索系统中的数据纠错问题,是通过选择高性能PC服务器的Scale-Out架构检索平台与规则库的纠错规则相结合进行纠错恢复丢失数据的,这种规则库将错误数据添加误码的形式虽然增加系统的负担,但确保检索系统数据的完整性与统一性。

参考文献:

[1]张丽丽等,“知识系统在空情数据纠错中的应用”《计算机应用与软件》2009 年12月26-12期

[2] 马张华,“对电子环境下主题控制系统检索应用的思考”《2008年编目研究会学术年会简报》

[3] 闫洪亮,“信息管理系统数据自动检错纠错的研究与设计” 《电脑学习》2006 年6月第3期

上一篇:法感情 第48期 下一篇:游戏角色设计与中国传统元素的融合