基于分类回归树的会计信息失真识别研究

时间:2022-07-02 12:09:06

基于分类回归树的会计信息失真识别研究

[摘要] 会计信息失真现象将给投资者、政府、公司所有者等众多会计信息使用者带来很大的损失和麻烦。因此,科学地识别会计信息是否失真就很重要。本文选取2008年的159家上市公司的财务数据作为训练样本建立分类回归树模型,并以该模型对2009年沪深上市公司的1 862家企业进行了检测,实证研究表明:分类回归树算法具有很高的会计信息失真识别能力。

[关键词] 分类回归树;会计信息失真;审计意见

[中图分类号] F234;F276.6 [文献标识码] A [文章编号] 1673 - 0194(2013)06- 0002- 02

1 文献综述

目前会计信息失真识别研究较多集中在2个方面:多元统计分析方法发现会计信息失真企业的特征和利用特征指标变量建立识别模型对企业会计信息失真的可能性进行识别和预测。国内外学者都基于这两类方法通过建立多种模型对会计信息失真问题进行了研究。

多元统计分析方法被用来作为会计信息失真的侦测方法已经有较长的历史,并且取得了较好的识别效果。而利用特征指标变量来建立会计信息识别模型的国内外研究在近年来得到了快速发展。Imran Kurt等[1]学者比较了分类回归树模型、logistic模型、神经网络在预测方面的作用,发现分类回归树算法具有很高的准确率。Belinna Bai[2]证明分类回归树模型对财务欺诈具有较高的识别能力。国内学者中,刘君[3]、张玲[4]等也都运用特征变量建立会计信息分析模型。

本文就是运用分类回归树算法来进行会计信息的识别,首先选取2008年的159家沪深上市公司的财务数据作为训练样本建立分类回归树模型,然后对2009年沪深上市公司的1 862家企业利用建立的分类回归树模型进行检测,进一步证实利用分类回归树算法进行会计信息失真识别的有效性和准确性。

2 分类回归树的构建步骤

分类回归树算法(CART)是一种有监督学习算法,即用户在使用CART进行预测之前,必须首先提供一个学习样本集对 CART 进行构建和评估,然后才能使用。根据给定的样本集构建分类回归树的步骤由以下3部分组成:

(1)使用L构建树Tmax,使得Tmax中每个叶节点要么很小(节点内部所包含的样本个数小于给定的值Nmin),要么它是纯节点(节点内部样本的Y同属于一类);要么是只有唯一的属性向量可以作为分支向量。本文在计算过程中采取最大杂度削减算法――基尼系数寻找最佳的分支向量。从根结点开始进行分割,递归地对每个结点重复进行分割:首先对每一个结点选择每个属性最优的分割点,若基尼系数最小,则Xi就是当前属性的最优分割点;接着在这些最优的分割点中选取使上式最小的作为这个结点的最优的分割规则;最后继续对由该结点分割出来的两个结点继续进行分割。分割过程一直持续下去,直到具备以下任一条件时停止:①每一个叶节点很小;②纯节点(节点内部样本的Y 属于同一个类别);③仅有唯一属性向量作为分支选择。

(2)使用修剪算法构建一个有限的节点数目递减的有序子树序列。修剪是为了获得误分率低、大小合适、评估准确率高的子树。该过程应用最小代价―复杂度算法,生成一系列Tmax的修剪子树。修剪过程主要完成生成有序树序列和确定叶节点的所属类两步骤工作。

(3)使用评估算法从第2步产生的子树序列中选出一棵最优树,作为最终的决策树。本文将使用2009年所有沪深上市公司年度报告中的财务数据进行对所建分类回归树的识别和评估。

3 基于分类回归树的会计信息识别实证研究

3.1 样本选择

将上市公司年度审计报告中被出具标准无保留审计意见的公司划分为会计信息真实的企业样本,将年度审计报告中被出具非标准无保留审计意见的公司划分为会计信息失真的企业样本。本文的样本数据主要来自CCER中国经济金融数据库和RESSET金融研究数据库。

训练样本的选择中,会计信息失真的企业样本为沪深证券交易所2008年年报被出具非标准无保留意见的53家上市公司,其中上交所31家,深交所22家,具体审计意见包括保留意见、拒绝表示意见和保留意见带解释性说明。此外,训练样本中会计信息真实的企业样本为2008年沪深证券交易所中年报审计意见为标准无保留意见的106家上市公司,其中上交所62家,深交所44家。

测试样本的选择中,将用2009年沪深证券交易所的1 862家上市公司作为测试样本,对所建立的分类回归树模型进行评估和检验,其中136家上市公司在年报中被出具了非标准无保留意见,即会计信息失真。

3.2 财务指标初选与处理

本文选择反映企业经营状况的财务指标来判定会计信息的失真。初步选取了一些常用的典型的可以反映这几个方面的财务指标,初步选取的规则是在反映企业偿债能力、盈利能力、成长能力、营运能力及其他各个方面的财务指标均选取一些,并且排除可直观判断具有相关重复性的指标。 初选财务指标及其描述见表1。

如表1所示,初步选取了19个财务指标,其中X1~X5是反映企业偿债能力的财务指标,X6~X10是反映企业盈利能力的财务指标,X11~X16是反映企业成长能力的财务指标,X17~X19是反映企业营运能力的财务指标。

3.3 财务指标进一步筛选

本文采用SPSS软件进行建模,变量个数太多不利于最优回归树的生成,因此为了采用少量的变量个数得到最合理和科学的回归树模型,在建模之前需要对之前得到的财务指标进一步处理和筛选,剔除重复性和相关性较大的指标。本文采用相关性检验,对上述财务指标进行进一步处理,具体处理采用Pearson系数来反映和发现各个财务指标之间的相关性。利用SPSS软件求Pearson相关系数得到结果。根据相关系数计算结果,X2与X3的相关系数为0.905,X6与X7的相关系数为-0.967,X10与X8的相关系数为0.921,其绝对值均显著大于0.8,说明这三组的每两个财务指标存在非常显著的信息重叠和相关现象,因此在该步相关性检验中可以剔除X3、X6、X8三个财务指标。

3.4 最优分类回归树的生成

经过财务指标的初步筛选和进一步筛选,本文最终确定以X1、X2、X4、X5、X7、X9、X10、X11、X12、X13、X14、X15、X16、X17、X18、X1916个财务指标建立模型。该建模过程采用SPSS直接生成最优分类回归树,即分类回归树的生长、修剪过程直接由软件完成。通过SPSS软件的数据导入―分析―分类―决策树等相关操作,得出最优分类回归树。

在分类回归树中,得到以X7(销售期间费用率)、X2(流动比率)、X9(资本收益率)、X11(每股收益增长率)4个财务指标为拆分变量的具有5个节点的最优分类回归树。当X7>38.603 5时,将其归类为会计信息失真企业;当X7≤38.603 5∩X2≤0.382 3时,将其归类为会计信息失真企业;当X7≤38.603 5∩X2>0.382 3∩X9>1.597 4时,将其归类为会计信息真实企业;当X7≤38.603 5∩X2>0.382 3∩X9

3.5 分类回归树的检验

3.5.1 利用训练样本评估最优分类回归树

利用SPSS软件生成最优分类回归树的时候可以直接得出该分类回归树对训练样本(159个样本)的识别准确率。样本中,会计信息真实企业和会计信息失真企业的识别准确率分别达到了90.6%和90.6%,可以看出该分类回归树对样本企业会计信息真实和失真具有很高的识别能力。

3.5.2 利用测试样本评估最优分类回归树

测试样本为2009年沪深证券交易所的1 862家上市企业,其中137家在年报中被出具非标准无保留意见,1 725家在年报中被出具标准无保留意见。为了评估本文所得出的最优分类回归树对会计信息失真的识别准确度,本文根据这1 862家上市企业的X7(销售期间费用率)、X2(流动比率)、X9(资本收益率)、X11(每股收益增长率)得出的最优分类回归树来判断这1 862家企业会计信息是否真实:当X7>38.603 5时,将其归类为会计信息失真企业;当X7≤38.603 5∩X2≤0.382 3时,将其归类为会计信息失真企业;当X7≤38.603 5∩X2>0.382 3∩X9>1.597 4时,将其归类为会计信息真实企业;当X7≤38.603 5∩X2>0.382 3∩X9

4 结 论

本文运用2008-2009年度我国上市公司财务数据,建立并检验了分类回归树模型在上市公司会计信息失真识别中的有效性。实证研究表明:①分类回归树算法对会计信息失真具有很高的识别能力,其识别准确率很高;②销售期间费用率、流动比率、资本收益率和每股收益增长率4个财务指标对会计信息失真具有很高的识别能力,因此可以将这4个财务指标作为判别标准,可以非常准确地判断会计信息是否失真。③分类回归树模型是非参数非线性方法,使用简单方便,研究结果容易理解。本文研究的分类回归树模型为审计机构、监管机构和广大投资者提供了一种识别会计信息失真状况的方便实用的方法。

主要参考文献

[1]Imran Kurt, Mevlut Ture ,Turhan Kurum. Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease [J]. Expert Systems with Applications, 2008(34):366-374.

[2]Belinna Bai, Jerome Yen, Xiaoguang Yang. False Financial Statements: Characteristics of China’s Listed Companies and CART Detecting Approach[J]. International Journal of Information Technology and Decision Making, 2008 (7):339-359.

[3]刘君,王理平. 基于概率神经网络的财务舞弊识别模型[J]. 哈尔滨商业大学学报:社会科学版,2006(3):102-105.

[4]张玲,陈收,张昕.基于多元判别分析和神经网络技术的公司财务困境预警[J].系统工程,2005,23(11):49-56.

上一篇:企业适度负债探析 下一篇:毛继鸿:例外×例外