注册会计师利用KDD技术加强审计抽样风险控制

时间:2022-07-08 08:59:03

注册会计师利用KDD技术加强审计抽样风险控制

KDD是指数据库中的知识发现(Knowledge Discovery Database),也称为数据挖掘技术,是一种特定应用的数据分析过程,它可以从包含大量冗余信息的数据中提取尽可能多的隐藏知识,从而为做出正确的判断提供基础。KDD的定义简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。也有许多学者将数据库中的知识发现或KDD视为数据挖掘的同义词,还有许多类似的术语,如知识提取、数据模式分析、数据捞取等。[1]本文采用关于数据挖掘的广义的观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现和提取有趣知识的过程,且数据挖掘是知识发现过程的一个步骤

审计风险是指审计组织或审计人员在审计过程中由于受到某些不确定因素的影响,而使审计结论与客观事实发生背离,从而受有关关系人指控并遭受某种损失的可能性。审计抽样风险是指注册会计师依据抽样结果得出的结论与审计对象总体特征不相符合的可能性。抽样风险与样本量成反比,样本量越大抽样风险越低。数据挖掘技术在国民经济其他行业已有成功的应用,但在审计风险控制与管理中的应用尚不多见,在注册会计师行业更是不多见。

本文提出了一种有效的控制抽样风险的方法,该方法充分利用数据库技术的最新成果,将数据挖掘技术中的分类、聚类及离群点挖掘等应用到审计风险管理中去。运用这种方法不仅能减轻CPA的负担,而且还能提高审计风险控制的水平。

一、KDD技术的分类

数据挖掘是数据库研究中的一个极富应用前景的新领域。对于数据挖掘,可做出不同的分类模式:(一)依据所挖掘的数据库的种类进行分类。若挖掘系统从关系数据库中发现知识,则相应系统为关系数据挖掘系统。其它数据库系统如面向对象的数据库、演绎型数据库、空间数据库、时间数据库、多媒体数据库、异质数据库、主动数据库、遗留数据库和互联网信息库均可作为挖掘系统挖掘的对象。(二)依据挖掘知识的种类进行分类。数据挖掘系统可以发现几种典型的知识,包括关联规则、特征规则、分类规则、聚类规则、离群数据挖掘、数据总结、偏差分析、序列模式分析、趋势分析、回归分析等。(三)依据采用的技术进行分类。常用的数据挖掘技术主要有人工神经网络、遗传算法、决策树方法、邻近搜索、规则归纳、方法等。

二、关联规则的挖掘

关联规则的挖掘是数据挖掘领域中一个非常重要的研究课题,关联规则的挖掘问题可形式化描述如下:设I={I1,I2,…,Im}是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T I,T有唯一的标识符TID。一条关联规则就是一个形如X Y的蕴含式,其中,X I,Y I,X∩Y=Φ。关联规则X Y成立的条件是:1、它具有支持度s,即事务数据库D中至少有s%的事务包含X∪Y;2、它具有置信度c,即在事务数据库D所包含X的事务中,至少有c%的事务同时也包含Y,关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度Smin和最小置信度Cmin的关联规则。挖掘关联规则可以分解为以下两个子问题:1、找出事务数据库中的所有大项集,大项集是指支持度不小于用户给定的最小支持度的项集。2、利用大项集生成关联规则。目前大多数研究均集中在第1个子问题上,因为这个问题的主要挑战性在于数据量巨大,所以算法的效率是关键。

三、特征规则的挖掘

在数据库的原始概念层,数据和对象往往包含很详细的信息。人们希望能将大数据集中的数据进行总结概括,并将其在更高的概念层次上呈现出来。如:经销商们可能希望对一些销售活动中的交易集合进行概括、总结从而得到更一般性的描述。这就要求数据挖掘系统具有数据概括的功能。数据概括是将数据库中的大量相关数据从较低概念层次抽象为较高层次的过程。通常有两种方法可以有效地进行数据概括:1、数据立方体法;2、面向属性的归纳方法。

四、分类规则的挖掘

数据分类是指在数据库的各个对象中找出共同特性,并按照一定的分类模型对它们进行分类。为了构建这样的一个分类模型,需要一个样本数据库E作为训练集,E中的每一个元组与大型数据库W中的元组包含着同样的属性集,并且每一个元组有一个已知的类标识。分类的目标是首先分析训练集数据,利用数据的可用特征为每个类建立一个精确的描述或模型,然后把这些模型用作对数据库W中其它数据进行分类或建立一个更好的描述,即分类规则。常用的分类方法有基于决策树的分类方法、统计方法、粗集方法等。

五、聚类规则的挖掘

聚类是数理统计中研究“物以类聚”的一种方法,它的任务是把一组个体按照相似性归成若干类,其目的是使得属于同一个类别数据之间的相似性尽可能大,而不同类别的数据之间的相似性尽可能小。它与分类分析不同,聚类分析输入的是一组未分类的记录,并且这些记录应分成几类事先也不知道。聚类分析就是首先通过分析数据库中的数据,合理地划分记录,然后再确定每个记录所在类别。在统计方法中,聚类算法一般分为基于概率的聚类算法和基于距离的聚类算法两种,如欧氏距离等。基于概率的聚类算法在挖掘海量数据集合时效率非常低;而基于距离的聚类算法在数据挖掘领域应用则相当广泛,而且其基本思想是属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间距离尽可能大。

六、KDD技术在审计风险管理中的应用

审计风险管理是人们对审计风险进行识别、估计、衡量、控制等一系列具有系统性、规范性的方法和手段的总称。审计风险管理是一个连续的过程,为了便于分析,我们可以将其分为三个阶段:即审计风险识别、审计风险评价与估计、审计风险处理。这三个阶段有着内在的逻辑联系,详见图1所示。

审计风险识别有两大任务:一是判明审计活动中存在什么风险;二是找出引起这些风险的原因。这两点实际上是结合在一起的。审计人员判明了审计活动中存在什么风险,也就意味着在一定程度上找出引起这些风险的原因。审计风险识别是审计风险管理的第一阶段,正确识别审计风险将为成功的风险管理奠定基础。审计风险评估是在风险识别的基础上,通过对收集到的大量信息加以分析,运用概率论和数理统计的方法来评估风险因素发生的概率和风险发生的程度,然后根据企业的可接受风险的标准去判断风险。审计风险管理是在识别和评估风险之后,针对不同类型、不同概率和规模的风险,采取相应的措施或方法,使审计风险减少到最小程度。

综上所述,我们可以得到如下五条选择审计样本的策略:1、由分类或聚类规则算法将所有证据分成若干类,并且为每个等价类规定一个唯一的编号;2、在每一个等价类中,选择一个或多个样本进行重点分析;3、由聚类规则算法确定离群数据;4、对离群数据进行重点分析;5、采用其它方法进行补充。

(作者单位:武汉冶金管理干部学院)

上一篇:制度导向与账表、风险导向审计的差异分析 下一篇:家族控股上市公司股权结构与信息披露的关系