如何有效利用审计采集的数据?

时间:2022-09-28 05:39:07

如何有效利用审计采集的数据?

全省医疗保险基金审计开展一个多月来,广大审计工作者都遇到了因采集的数据错误而造成的审计困难。数据分析人员空有思路、空有算法,却因数据质量太低,造成筛查结果精度太差。笔者作为其中一份子,对此感同身受,觉得很有必要说出来,以资后用。

那么,我们错失了什么?我们错失了部分审计资源!

审计采集的数据,每个字段都有其特定意义,如果采集的数据不能支撑这项意义,数据就失去了价值。我们看以下几种情况:

一、有通用法则字段中的非法数据

(一)最典型的当属非法身份证号

身份证号存在于大量的数据库数据表中,有很多数据表还将身份证号所在字段设置了主键或非空、不可重复等约束,由于身份证号全国唯一这一特殊性,我们常常用它来关联其他有身份证号字段的数据表。如果这个字段的值不真实,该身份证号对应个人的信息就无法查出或需要调用其他信息资源才能查出,而很多时候,尤其是在面对数据量较大的时候,我们无法批量获取并比对其他信息资源。因此对这部分人,审计范围覆盖不到,审计客体将处在部分审计对象监督不到的危险环境,而审计主体将获得未审计风险或审计失败风险。如果有人利用这种漏洞故意为之,那将是一个巨大的风险并可能造成非常恶劣的影响!

下表是某市医保审计数据部分标准表中非法身份证号及对应的医保基金支出金额合计与总数的对比情况,其中新农合门诊报销情况表的错误身份证号对应的基金支出合计占总支出的比值超过了15%!对应的基金支出合计金额超过了1.2亿元!这些钱我们都无法通过计算机方法进行审计。

(二)非法日期也是常见的非法数据

这些错误数据将严重影响数据分析的准确性和疑点判断的正确性。这类非法日期中,有些可以猜到正确值应为多少,如某死亡人员的死亡日期为“3015-05-30”,估计实际值应为“2015-05-30”;还有些形如“2015-09-42”的数据,就无法单从字面上猜到其实际值了。形形的非法日期,审计人员又能猜到几何?即使能猜到的,可以用语句大批量的比对修复的也只占极少数而已。所有这些非法日期数据也和非法身份证号一样,巧妙地避开了计算机数据分析的监督!

二、有外键关联字段中的无法关联数据

一般情况下,明细表会有至少一个字段以主表中对应字段为外键,如住院项目费明细表、住院药费明细表中的单据号是以医院住院结算单表中的单据号作为外键的。如果存在一批单据号,在住院结算单中有,在明细里却找不到,那么在排除部分住院行为确无项目费或药费明细情况后,剩余数据将无法直接用语句查询明细情况;反之,如果一批单据号在明细里有,在结算单里没有,则会对汇总数量、金额的精度产生影响。这样的数据,也逃脱了计算机数据分析的范围。

三、其他错误数据

其他常见错误数据形式有:非空字段的空数据、唯一性字段中的重复数据和半角全角字符、中英文字符不同等造成的数据匹配不上。我们数据分析的时候,都很容易错失掉这些数据,影响审计结果的精度。

以上举例都是取自数据质量相对较高的城市,若放在全省,错误数据占比将会更大!我们错失的将会更多!

那么,如何解决这一问题呢?其实并不复杂。

首先,对于那些前台录入的数据,只需要在录入时,增加数据有效性规则检验即可限制错误数据的录入。而有效性规则,在Excel、Access这样的基础办公软件中,都可以实现,在大型数据库软件中,更没有问题。

其次,对于系统自动生成的数据,要谨慎授予可编辑权限,防止不合系统法则的增删改。再在有规则的字段上加上有效性约束,以保护有编辑权限的人员的错误编辑输入。

再次,对于那些后台导入的数据(一般指以往年度的数据或从其它系统植入的数据),可以考虑在新系统中仅导入符合有效性规则的数据,同时导入不符合有效性规则的数据为备份,或者将需后台导入的数据全部备份为没有有效性规则的原始数据。在新旧数据需要关联合并时,用特殊字段标记旧数据以示区分即可。而以往数据中的错误数据,数据责任单位可以进行档案查阅、发回数据来源部门重新报送等方式尽量修正。这样可以最大限度的保证以后录入的数据的正确性,也能同时保留以往数据的原貌并逐渐降低以往数据的错误率。

信息系统是当前及未来各行业各部门不可缺少的管理工具,而数据是信息系统的基石,错误的数据,就相当于基石中的豆腐渣砖头,它们的存在必将影响整个信息系统的功效,严重的还将损害信息系统所属单位的利益!

(作者单位:南昌市审计局)

上一篇:关于规范行政事业单位国有资产管理的思考 下一篇:基层央行信息安全审计难点及对策