- 收藏
- 加入书签
基于样本类别不平衡处理的财务造假智能识别方法
摘要:上市公司财务造假不仅破坏了市场规则,还会给投资者带来诸多不良影响,因此有效识别上市公司财务造假的行为十分必要且意义重大。本文从类分布不平衡的角度进行分析,提出了一种基于聚类欠采样和差分进化的LightGBM算法(UC-DE-LightGBM)来识别财务造假。该方法在处理类不平衡数据的分类问题时,能很好解决类别叠加和小分裂群的问题。数值实验基于制造业的上市公司财务数据进行分析,证明了本文提出的算法在上市公司财务造假上有较好的识别效果。
关键词:财务造假;不平衡数据;差分进化算法;LightGBM
1引言
上市公司披露的财务报表应该合理反映公司的运营状况,财务信息造假对市场和投资者的影响是巨大的。进入21世纪以来,在世界范围内的证券市场上发生了大量财务造假的案件,例如著名的美国安然[1],日本东芝[2]等巨头公司的财务造假行为不仅对本国经济造成了严重危害,也给世界经济带来重大的金融风险。随着中国证券市场规模的进一步扩大,上市公司的数量不断增多,国内的上市公司财务数据造假及暴雷的情况也不容乐观[3]。对于严重财务数据造假和丧失持续经营能力的上市公司应采取合理的措施,以维护股民的合法权益和市场秩序。针对上市公司公布的财务数据进行分析,判别出有财务造假行为的公司,既能给投资者提供相应的投资建议,避开雷区,还能给相关监管部门提供建议及参考。
财务造假是一种舞弊行为,其目的是获得非法的利益或掩盖财务漏洞。在中国注册会计师审计准则第1141号文件中[参见2007年1月 1日起实施的《中国注册会计师审计准则第1141号——财务报表审计中对舞弊的考虑》第六条。],将舞弊定义为被审计单位的管理层、治理层、员工或第三方使用欺骗手段获取不当或非法利益的故意行为。
财务造假的识别研究兴起于20世纪90年代,在对上市公司财务造假进行识别时,学者们使用机器学习的方法来进行主要使用的方法包括了逻辑回归模型,人工神经网络模型,决策树模型,支持向量机模型,随机森林模型等。
财务造假识别可以看作一个判别上市公司是否造假的二分类问题,并且由于造假类别实例数极少,未造假类别实例数较多,存在类分布不平衡的情况。对于上市公司财务数据来说,将造假的少数类实例判为未造假的多数类代价更大,若是不加处理直接进行建模分析,会影响判别模型训练和参数的学习,进而导致模型的分类性能不佳[7]。因此在财务造假识别时,应该考虑到类不平衡处理。
从造假动机看,制造业、农业和行业业务风险较高,且财务结构存在风险,因此具有更强的造假动机。
本文基于聚类欠采样和差分进化构造了财务造假识别的LightGBM模型,主要贡献有以下几点:
1.通过对少数类样本空间聚类, 选取中心点作为降采样点, 可以有目的剔除多数类样本。且不会受到小分裂集群的影响,从而也能达到去除类别叠加的现象,能更好的区别多数类样本和少数类样本。
2.可以控制需要剔除的多数样本比例,应对极度不平衡数据下,出现欠拟合的情况。
2 UC-DE-LightGBM算法
本文基于前人对财务造假识别的研究,提出了基于聚类欠采样和差分进化的LightGBM算法(UC-DE-LightGBM, LightGBM algorithm based on clustering under-sampling and differential-evolution)。UC-DE-LightGBM主要解决两方面的问题:一是解决数据的类不平衡问题,提出了聚类欠采样的采样方法来处理财务造假判别中存在的类不平衡问题,重点在于解决小分裂群和类别叠加问题。二是解决Light GBM模型的超参数选择问题,使用差分进化算法对Light GBM模型的超参数进行自动寻优,对识别效果进行了进一步提升。
2.1聚类欠采样技术
聚类欠采样技术是本文基于欠采样技术提出的一种新的采样方法,旨在解决数据的小分裂群问题和类别叠加问题。
聚类欠采样技术将特征筛选后的数据集划分为少数类样本集和多数类样本集,分别对和进行不同处理。聚类欠采样技术一共包含了4个步骤:
第一步先在少数类样本集上进行均值聚类,得到个小分裂群,每个分裂群的中心点为聚类中心点。
第二步更新聚类中心点,先计算小分裂群中的样本与其中心点之间的欧式距离,再按照的大小对中的样本进行归一化权重的计算,得到每个分裂群中样本的权重,计算样本加权平均求得新的个聚类中心点。
第三步对多数类样本集进行操作,在确定了少数类样本集的小分裂群聚类中心后,可以对多数类样本归类。分别计算多数类样本集中的样本到个聚类中心点的欧式距离。将多数类样本按的大小归入到每个分裂群中,形成少数类与多数类两类样本相结合的新分类群。
第四步基于新分类群对样本集进行欠采样。欠采样是针对多数类样本进行剔除的过程,设剔除多数类样本的比例为。将中的多数类样本按照进行升序排序,按照排序的顺序剔除了个多数类样本,形成欠采样后的新分裂群。
2.2 基于差分进化的超参数优化技术
使用差分进化算法并选择合适的评价指标对选定的主要参数进行优化。
3 实验过程与结果:
3.1实验数据的选择
本文的实验数据选择近5年的制造业上市公司相关财务数据进行分析,最终的数据共有11310例其中造假样本仅有91例,属于数据极度不平衡且正类样本量少的情况。
3.2 数据预处理与特征筛选
原始数据共包含353个特征指标,在建模之前进行异常值检测和缺失值处理。
首先使用盖帽法检测发现无明显的异常值。然后对缺失值进行处理,缺失量在0%-20%的特征使用中位数填补;缺失量在20%-50%的使用随机森林填补;缺失值达到50%以上的直接删除。再使用卡方过滤法进行特征提取,最终得到35个特征来构建模型。
3.3 实验结果分析
采用10折分层交叉验证的方法验证模型结果。
通过该数据集通过本文所提出的新采样方法与前人常用的采样方法进行比较来验证有效性。分类模型选择LightGBM模型,评价指标选择十折交叉验证的F1值。具体实验结果如3.2所示:
4 结论
本文从类不平衡的角度出发进行财务造假数据的识别,提出了一种新的采样方法。在建模分析时,使用差分进化算法来优化Light BGM的超参数,得到较好的分类效果。最后将本文提出的UC-DE-LightGBM应用到制造业近5年的上市公司财务数据上,得到较好的财务造假识别效果。
参考文献
[1]Healy P M, Palepu K G. The Fall of Enron[J]. Journal of Economic Perspectives, 2003, 17.
葛家澍,黄世忠.安然事件的反思——对安然公司会计审计问题的剖析[J].会计研究,2002(02):3-11+65.
[2]骆良彬,曹佳林.基于公司治理的财务造假问题探析——以日本东芝为例[J].会计之友,2017(05):118-121.
[3]黄世忠.上市公司财务造假的八因八策[J].财务与会计,2019(16):4-11.
[4]王乐,韩萌,李小娟,张妮,程浩东.不平衡数据集分类方法综述[J/OL].计算机工程与应用:1-15[2021-08-19]. http://kns.cnki.net/kcms/detail/11.2127.TP.20210819.1100.006.html.
[5]李艳霞,柴毅,胡友强,尹宏鹏.不平衡数据分类方法综述[J].控制与决策,2019,34(04):673-688.
[6]卢涛. 我国上市公司财务报告舞弊行为识别及其监管研究[D].东北财经大学,2013.
[7]Garcia V, Mollineda R A, Sanchez J S. On the k-NN performance in a challenging scenario of imbalance and overlapping[J]. Pattern Analysis & Applications, 2008, 11(3-4):269-280.
[8]Galar M. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches[J]. IEEE Transactions on Systems Man & Cybernetics Part C Applications & Reviews, 2012, 42(4):463-484.



京公网安备 11011302003690号