1基于贝叶斯网络分类器的财务信息失真识别研究上海立信会计学院数学与信息学院姚衡高瑞上海立信会计学院立信会计研究院王双成摘要企业财务信息失真识别越来越多地受到关注本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加给出新的多元高斯核函数在此基础上建立扩展的连续属性朴素贝叶斯分类器并将该分类器用于企业财务信息失真识别实验结果显示这种分类器具有良好的分类性能关键词财务信息失真识别朴素贝叶斯分类器高斯函数贝叶斯网络依赖扩展一引言如何有效识别上市公司会计信息真伪一直受到广泛关注已成为会计和其它学科交叉研究的热点但会计指标具有复杂性非线性不确定性和高噪声性等特征使得对会计信息失真进行可靠识别非常困难对这样复杂的问题需要进行跨学科和多种技术的综合研究提高会计信息失真识别的可靠性分类器技术是融合了多学科理论与方法而形成的模拟人类概念学习的实用技术是会计信息失真识别的有力工具会计信息失真识别的科学化和智能化被认为是其发展的必然趋势2贝叶斯分类器是一个基础概率分类器由满条件概率的不同计算方法可产生一系列贝叶斯衍生分类器朴素贝叶斯分类器是最简单的以高效率和良好的分类准确性而著称但这种分类器不能有效地利用属性之间的依赖信息而这种信息也是分类的重要信息因此对进行依赖扩展便成为研究的一条主线其中主要是针对离散属性的研究本文研究不离散化连续属性的和依赖扩展需要估计属性密度其研究结果可推广到混合属性的情况在属性密度估计方面和使用高斯函数和高斯核函数估计属性边缘密度建立了和两种分类器虽然分类效果并不理想但奠定了基于密度估计研究连续属性贝叶斯衍生分类器的基础和等通过为高斯核函数引入平滑参数以及基于高斯函数和高斯核函数的连续属性互信息计算对进行依赖扩展使分类器的分类准确率得到改进但当属性较多时协方差矩阵的计算非常困难夏战国等将高斯过程用于具有不均衡类的半监督分类器学习取得了较好的分类效果等对复杂和简单的高斯过程分类器进行理论分析和实验比较认为复杂的高斯过程分类器往往能够取得更好的分类效果使用高斯核函数能够估计复杂的属性密度使分类器充分拟合数据而且通过平滑参数调整又能够避免与数据集的过度拟合但目前3多元高斯核函数采用边缘高斯函数的乘积进行叠加实质上也蕴含着条件独立性假设因此会丢失属性之间的依赖信息从而降低分类器的可靠性为提高分类器的学习与分类效率本文使用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加建立新的二元高斯核函数对进行一阶依赖扩展将扩展后的分类器简记为最后使用数据和企业财务数据进行实验与分析二概述一分类器结构具有星形结构用表示一般不再具有星形结构用表示而是约束树或约束森林两种分类器的结构如图所示三结构学习与优化结构学习就是在的基础上发现每一个属性新父结点的过程首先根据的信息增益率为属性排序然后以分类准确性为标准按照属性的顺序依次进行贪婪搜索来发现属性的新父结点建立结构三可靠性分析与应用4一的可靠性分析在中选择个连续属性的分类数据集用于实验和分析删除具有丢失数据的记录数据集中记录的位置也进行随机初始化选取十二个分类器其中前四个是离散属性分类器对连续属性采用和方法进行离散化后八个是连续属性分类器将其与进行分类准确性比较实验用于比较的分类器的具体情况依次是离散属性基于的信息增益率为属性排序按照属性顺序对进行链依赖扩展而得到的分类器等给出的分类器采用属性排序和贪婪打分搜索方法所建立的约束贝叶斯网络分类器其中属性排序采用的信息增益率打分函数使用标准基于高斯函数估计属性条件边缘密度而建立的使用等方法建立的使用等方法建立的连续属性树结构分类器基于高斯函数估计属性联合密度并结合分类准确性标准与前向贪婪属性选择而建立的完全贝叶斯分类器使用高斯核函数估计属性联合密度并结合分类准确性标准与贪婪搜索进行单平滑参数优化而建立的完全贝叶斯分类器最近邻域分类器的决策树分类器支持向量机分类器基于二元高斯核函数估计属性密度的一阶贝叶斯衍生分类器5采用折交叉有效性验证方法进行分类器的分类错误率估计并使用和进行两个分类器分类错误率之间差异的置信打分其中表示和用于比较的分类器相对于给定的检验方法差别显著十二个分类器与的分类错误率实验结果如表所示综合分类器之间的分类错误率差异的显著性检验分类准确性平均值比较和分类准确性差异百分比计算三方面的结果显示了相对于其它十二个分类器在分类准确性方面具有明显的优势二基于的企业财务信息失真识别根据专家信息确定与企业财务信息失真指标属性从数据库获取年企业财务信息失真相关数据通过学习建立并检验使用进行企业财务信息失真识别的可靠性企业财务信息失真识别相关指标用于企业财务信息失真识别的指标包括企业财务信息失真情况总资产周转率应收账款周转率销售净利率总资产净利率流动比率产权比率担保总额占净资产比例关联交易占总资产比例关联交易占营业总收入比例年内公司层面存在内控缺陷年内存在合同管理内控缺陷年内存在投资活动内控缺陷年内存在筹资活动内控缺陷年内存在对外担保内控缺陷年内存在关联交易内控缺陷6年内财务报告编制存在缺陷年内信息披露存在缺陷年内存在的其他缺陷用于企业财务信息失真识别的结构根据企业财务信息失真识别的相关指标的结构如图所示器的可靠性比较从数据库获取年企业财务信息失真相关数据使用上面个分类器进行企业财务信息失真识别采用折交叉有效性验证方法进行分类器的分类准确性估计如图所示可以看出使用企业财务数据相对于其它个分类器同样具有优势这表明将用于企业财务信息失真识别将会得到更可靠的结果四结语针对连续属性和多元高斯核函数存在的问题本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加给出新的多元高斯核函数结合这种多元高斯核函数和一阶依赖扩展方法建立使用和企业财务信息失真识别数据的实验结果显示具有良好的分类准确性和可扩展性参考文献梁杰位金亮扎彦春基于神经网络的会计舞弊混合识别模型研究统计与决策7张玲杜庆宣上市公司会计信息失真识别研究与模型应用比较南京师大学报社会科学版于彪陈思凤会计信息失真识别的成本控制型支持向量机模型商场现代化刘澄胡巧红孙莹基于分类回归树的会计信息失真识别研究中国管理信息化王双成杜瑞杰刘颖连续属性完全贝叶斯分类器的学习与优化计算机学报等8编辑彭秋龙