收藏
加入书签

添加成功

收藏成功

分享到微博分享到空间分享到微信

基于随机森林的内部控制评价模型研究

李海波

重庆理工大学重庆市 400054

摘要：本文基于2019-2022 年电子设备企业数据，运用随机森林算法构建内控缺陷预测模型。研究发现股权制衡度、机构持股比例及管理层薪酬是影响内控质量的核心因素。模型有效验证了财务与监督指标的预测作用，为完善企业内控体系提供科学依据。

关键词：电子设备行业；内部控制评价；随机森林算法；指标体系

1、绪论

1.1 研究背景介绍

2021 年国资委发布了《关于加快构建中央企业内部控制体系有关事项的通知》要求央企开展内控自评，习近平总书记多次强调防范化解重大风险、构建韧性资本市场的重要性。二十大报告进一步明确需主动防范金融风险。内部控制作为公司治理基石，不仅关乎企业稳健运营，更直接影响到国家经济安全。

自 2012 年我国强制披露内控报告以来，企业披露质量仍有不足。由于风险复杂多变，加之管理层认知局限与成本考量，内控缺陷难以避免，可能影响财务可靠性。依据信号传递理论，重大缺陷是评估风险的关键指标，但企业主动披露动力不足，甚至美化信息，加剧了信息不对称，损害利益相关者利益。因此，科学评价内控质量，对降低信息甄别成本、提前预警风险至关重要。

因此，评价企业内部控制的质量显得尤为关键，这有助于减少信息不对称，降低各方获取真实信息或验证信息的成本。而当前内部控制评价指标体系的构建多基于内控五要素框架。本文结合现实趋势，从内部治理、财务表现、监督监管三个维度构建缺陷预测模型：健全的治理环境奠定控制基础；财务数据监控揭示控制活动不足；监督机制通过持续评估实现动态优化。该模型旨在系统识别关键影响因素，助力企业提升内控有效性，推动可持续发展。

1.2 研究方法

1.2.1 因子分析

因子分析通过探索变量间的潜在结构，将高维数据降维至少数几个独立公因子，以概括原始信息。其核心步骤包括适用性检验、因子提取与旋转。该方法能有效简化数据、揭示变量间的本质关联，并解决多重共线性问题。由于基于数学变换提取因子，其结果具有较强的客观性，能够为后续模型构建提供稳定且信息浓缩的输入变量。

1.2.2 随机森林算法

随机森林是一种基于决策树的集成学习算法。它通过自助采样生成多个子集训练决策树，并在节点分裂时随机选择特征子集，最终综合多棵树的预测结果输出。该方法能有效降低模型方差、防止过拟合，具有较高的预测精度。同时，它具备特征重要性评估功能，可量化各变量对预测结果的贡献程度，有助于识别内控缺陷的关键驱动因素，优化模型输入。

2、我国电子设备企业内部控制现状

2.1 息披露质量与合规性存在落差

虽然电子行业上市公司年报披露率比较高，但关键内控信息透明度仍待提升。抽样调查显示， 27% 的企业未完整披露供应链金融等创新业务的内控措施， 19% 的公司在研发费用资本化标准表述中存在模糊地带。更值得注意的是，部分企业利用行业技术壁垒进行信息选择性披露，如某半导体企业将关键制程缺陷归为 " 商业机密 " 规避披露，这与监管部门要求的" 重大缺陷强制披露" 原则相悖。

2.2 治理结构失衡与监督机制缺位

尽管电子行业上市公司普遍设立董事会专门委员会，但独立董事的实质性作用尚未充分发挥。约 42% 的企业存在董事长与 CEO 职权交叉现象，导致决策监督流于形式。审计委员会独立性不足问题尤为显著，某主板电子企业审计委员中内部高管占比达 60% ，削弱了风险预警功能。内部审计部门人才储备不足，约 35% 的企业内审人员缺乏 IT 审计技能，难以应对智能化生产线带来的新型风险。

3. 基于随机森林的电子设备上市公司内部控制评价模型构建

3.1 样本选取

考虑到 2023 年内部控制相关数据的披露尚不完善，为保证研究数据的完整性与时效性，本文选取 2019—2022 年沪深 A 股上市的电子设备行业企业作为研究对象。数据来源主要包括国泰安数据库、企业年度报告、内部控制自我评价报告以及内部控制审计报告。为确保样本数据的连续性与一致性，本文按照以下标准对样本进行了筛选：剔除上市时间不足两年的公司、剔除已被特别处理（ST）的公司，以及剔除关键财务或内控数据缺失的企业。经过上述筛选流程，最终获得1600 余条有效样本观测值，为后续建模分析提供了可靠的数据基础。

3.2 模型影响因素确定

随着《企业内部控制基本规范》及《内部控制——整合框架》等文件的发布实施，我国企业内部控制规范体系逐步确立。该体系要求企业围绕内部环境、风险评估、控制活动、信息与沟通、内部监督五个核心要素构建和完善内部控制机制，推动公司治理和风险管理向更加系统化、规范化的方向发展。在此背景下，构建电子设备行业上市公司的内部控制评价体系，需突破单一维度的局限，以系统性视角融合财务管控、治理效能与监督制衡三重逻辑。本文从内部治理、财务状况、监督监管三个维度出发，构建内部控制缺陷预测模型，旨在识别影响内控质量的关键要素及其相互作用，为内控缺陷的预警与防范提供理论依据和实证支持，进而增强企业内部控制的有效性，促进企业健康可持续发展。

3.2.1 内部治理制度维度指标选取

内部治理机制是企业内部控制有效运行的基础环境。现有研究表明，内部治理质量可以通过多个定量与定性指标进行评估，包括股权结构、机构投资者参与度、董事会特征以及高管激励水平等。具体而言：

股权制衡度反映了股东之间的权力制衡关系。在理想治理状态下，适度的股权制衡有助于促进股东间合作与沟通，提升决策效率，从而对内部控制产生积极影响。但若股权制衡度过高，则可能导致股东间权力斗争，消耗公司资源，降低决策效率，进而削弱内部控制有效性。

机构投资者持股比例是衡量外部治理力量的重要指标。机构投资者，尤其是长期战略投资者，不仅是资金提供者，更是技术和管理知识的贡献者。他们通过参与董事会决策、提供专业建议和履行监督职能，能够有效防范内部控制重大缺陷，促进公司长期价值实现。

高管薪酬激励机制是缓解代理问题、引导管理层行为的核心工具。通过将管理层薪酬与企业长期绩效挂钩，可以激励管理层重视并推动内部控制制度的有效执行，从而保障股东利益。

3.2.2 财务维度指标选取

董事会规模与构成同样影响治理效率。规模过大的董事会可能导致沟通不畅、决策迟缓；规模过小则可能缺乏专业视角的多样性，易受主要股东或管理层操控。因此，适中的董事会规模对于保障内部控制机制有效运行至关重要。

独立董事占比是衡量董事会独立性的关键指标。独立董事不参与企业日常经营，能够在管理层可能出现“一言堂”的情况下提供客观监督。其专业背景与丰富经验有助于提升公司透明度，防止内部控制失效。

综上，本文选取股权制衡度、机构投资者持股比例、管理层薪酬总额、董事会规模、独立董事占比五项指标，作为内部治理维度的评价变量。

在现代企业经营管理中，内部控制系统扮演着至关重要的角色，其根本目的在于保障公司资金流动的真实性、完整性以及财务报告的可靠性。这一体系不仅关乎日常财务活动的规范性，更是公司治理和风险管理的基石。在我国内部控制规范体系的构建中，尤其针对资金与资产管理、采购销售流程、财务报告编制及预算制定等关键领域，已经形成了一套详细的控制措施。这些措施的目的在于确保财务健康状态在整个内部控制系统的确立与执行过程中，始终占据核心的位置，以此来维护和强化企业财务的透明度和准确性。财务特征作为内部控制质量的一面镜子，可以反映出公司治理的效率和效果。在财务学的视角中，公司的财务健康与盈利能力若显著不佳，往往反映了其内部控制的不充分。以应收账款管理为例，如果企业在此领域内部控制存在缺陷，则其应收账款的周转速度通常会低于行业均值。这一逻辑同样适用于其他内部控制缺陷，无论其程度大小，这些缺陷都可能导致公司的总资产收益率和净资产回报率不达行业平均，这进一步说明了完善内部控制对于维护企业财务稳定性和盈利能力的重要性。因此，本文确认总资产净利润率、净资产收益率、营业净利率、应收帐款周转率、总资产周转率、速动比率、资产负债率、权益乘数、净利润增长率为财务状况维度的指标参数。

3.2.3 监督维度指标选取

在现代企业的运作中，内部控制审计的作用愈发显著，其质量直接关联到企业的财务稳定性、经营效率及风险管理能力。内部控制缺陷的存在，尤其在财务报告领域，不仅可能导致公司资产的损失，还可能损害公司的声誉，甚至引发诉讼，带来巨大的经济赔偿。因此，审计工作在评估和验证企业内部控制的有效性方面扮演着至关重要的角色。内部控制系统主要旨在保护企业资产，确保财务报告的准确性和可靠性，以及促进企业遵守适用的法律法规。良好的内部控制系统能够帮助企业有效地识别和管理潜在的风险，包括操作错误、欺诈行为、财务报告的误导性陈述等。审计机构在评估企业内部控制质量时，需要考虑许多变量，其中包括企业的财务状况和经营风险。对于那些财务状况较差、经营风险较大的企业，审计人员通常会投入更多的审计资源，并因此收取更高的风险溢价费用。这一行为是基于风险评估的原则，即风险越大，审计的难度和责任也相应增加，则其收取的审计费用也就越多。因此，本文选取审计费用作为监督维度的参考指标。

3.3 因子分析过程

3.3.1 样本数据标准化

在进行因子分析时对样本数据标准化主要是为了消除变量量纲差异对分析结果的影响，确保不同量纲或数值范围的变量具有可比性，避免高数值变量在计算协方差矩阵时因绝对值过大而主导因子载荷的计算。同时标准化后的数据更符合因子分析基于相关系数矩阵而非协方差矩阵的假设条件，使得提取的公因子能客观反映变量间的内在关联性，而非量纲差异带来的统计偏差，从而提升因子解释的合理性和模型的稳定性，参考公式：

x^* ：标准化后数据，xi ：原始数据，Xmin、Xmax 为原始指标最小、最大值。

3.3.2 样本检验

在进行因子分析前进行样本检验是为了验证数据是否满足因子分析的基本假设：KMO 检验通过量化变量间的偏相关性判断数据是否适合降维，通常需要 KMO 值 ⩾0.5 ，避免因变量独立性过强导致提取公因子失败；Bartlett 球形检验则通过卡方统计量检验变量间是否存在显著相关性，若检验不通过，即 p 值 <0.05 则表明变量缺乏共享方差，强行分析可能导致因子载荷矩阵无意义，从而确保因子模型能够有效揭示变量间的潜在结构关系，避免资源浪费于不适用场景。

结果显示，KMO 系数为 0.512，表明相关性较好，因子分析可行；Bartlet 结果表明显著性接近 0，比 0.05/h ，可以得出相关矩阵非单位矩阵，指标间有关系，因子分析可行，样本检验合格。

3.3.3 提取因子

在进行因子分析时进行因子提取是为了通过降维方法从原始变量中识别出少数几个潜在的公共因子，这些因子能够解释观测变量之间的相关性，从而简化数据结构、揭示变量间的内在关联性。例如，财务维度指标中的权益乘数、速动比率和资产负债率可能共同反映“偿债能力”这一潜在因子，通过提取此类因子可以减少变量冗余性，将高维数据转化为低维且更具解释力的核心维度，同时保留原始数据的主要信息，为后续构建综合评分或分类模型奠定基础，避免直接使用原始变量导致的多重共线性或分析复杂度失控的问题。通过因子分析提取主成分，得到总解释方差表。

总解释方差表展示了主成分分析法提取因子的过程及其对原始变量信息保留的效果。从初始特征值部分来看，前五个成分的特征值均大于 1，累积方差贡献率达到 70.78% ，表明这五个成分能够解释原始数据约七成的信息量。经过因子提取后，系统保留了这五个主要成分，其方差解释结构与初始状态一致，说明主成分提取有效捕捉了核心信息。值得注意的是，经过方差最大化旋转后，各成分的方差贡献率发生重新分配，如第一主成分贡献率从 21.66% 降至 17.74% ，但累积贡献率仍保持 70.78% 不变，这种调整优化了因子载荷分布，使各因子的解释力更加均衡。最终确定的五个因子在保留主要信息的同时，通过旋转处理增强了实际意义的可解释性，为后续分析建立了可靠的基础框架。

3.3.4 主成分分析

在进行因子分析时使用主成分分析主要是为了通过提取原始变量的线性组合来简化数据结构，并作为因子分析的初始步骤，帮助确定潜在因子的数量和解释能力。主成分分析通过计算特征值筛选出能够解释最大方差的成分，为后续因子旋转提供基础框架，同时降低变量间的多重共线性干扰，确保提取的因子既能有效浓缩数据信息，又能通过旋转优化因子载荷矩阵的结构，从而更清晰地揭示变量间的潜在关联性，提升因子模型的解释力与稳定性。

最终得出大部指标都在至少一个主成分上的载荷大于 0.5，仅有是否披露内部控制评价报告这一指标未超过 0.5，但其可以用来辅助判断企业监督维度的状况，因此，综合考虑，12 项指标均留下。

3.3.5 因子分析结果

各企业财务指标因子得分系数矩阵，可以展示各因子基于财务数据的线性函数，通过线性方程即可得出各因子分数。

把样本数据代入线性方程可算出各企业因子分数，如表3-1 所示。

表3-1 各企业因子得分

将样本数据代入下述线性方程可算出各企业因子分数，并经过旋转的各因子方差贡献率与相应因子分值相乘，可得各企业综合分数表现企业综合内部控制相关指标水平，由此评估各企业内部控制状况。

以样本公司指标因子综合得分为基础，制作直方图，如图 3-1 所示。从图中可以看出样本公司指标因子综合得分的分布情况。

图3-1 样本公司指标因子综合得分直方图

从图中可以看出，大部分公司位于 -1 到 1 之间，结合数据的分布特性，本文将分数小于-0.5 的归入内部控制状况不良类别，高于-0.5 的则有较好内部控制能力。

4、模型构建与优化

4.1 模型样本预处理

在数据分析的初始阶段，需要对数据进行加载和初步的探索，以了解数据的基本结构和特征。首先将因子分析得到的结果即以 -0.5 为标准进行划分，最后作为 label 列整合到数据集当中，即小于 -0.5 则标为 0，表示内部控制状况不良。否则则标为 1，表示内部控制状况良好。作为后续随机森林模型的监督学习的标签。该过程将无监督的因子分析结果转化为有监督的分类任务，既保留了因子分析对多维特征的降维解释性，又通过随机森林的分类能力提升模型对财务风险的识别精度与泛化性能。

同时，从上一节样本企业指标因子得分可知，本文的样本数据中有 224 个内部控制状况不良的样本，内部控制能力良好的样本有 1692 个，两种样本的比例差距较大，样本数据处在非平衡状态。为化解其对随机森林模型的干扰，本文用 SMOTE 算法对不平衡数据进行平衡处理，之后再应用随机森林进行分类。SMOTE，合成少数类过采样技术。它是对随机过采样算法的优化，因随机过采样是简单复制样本来提高少数类样本，模型易存在过拟合问题，即模型学习到的信息太特别而不够泛化，SMOTE 算法是剖析少数类样本并据此人工合成新样本增添到数据集。

4.2 模型参数优化

为了找到随机森林模型的最佳参数组合，定义了一个参数网格 param_grid。包含了多个需要调优的参数及其候选值，如树的数量、最大深度、最小样本分裂数以及类别权重。通过系统地遍历这些参数组合，网格搜索能够找到在验证集上表现最佳的参数设置。

随后为了更直观的展示参数波动的影响，将不同的参数值与 auc 面积相结合，绘制关系图，可以更直观的判断最佳参数的值。

4.2.1 树的数量参数优化

在随机森林算法中，决策树的数量决定泛化误差上限，能防止模型过拟合。因此，选择适当的决策树数量能提升分类效果，还能缩减模型训练时长。当树数量较少时，模型可能无法充分挖掘数据中的非线性关系和交互特征，该模型对内部控制指标的变化度的捕捉则可能不灵敏。当树数量过多时，虽然单棵树的随机性差异会被群体决策稀释，但可能受到冗余数据的影响，反而影响模型判断效果。基于此，对决策树数量与 Auc 面积值进行研究。Auc面积值越大越接近 1，效果就更好。研究得出，在 100～200 棵树中，auc 面积值快速上升。200～300 则稳步上升到峰值。而 300 棵之后，随着棵树上升，auc 面积值则在下降，出现过拟合倾向。所以最佳决策树量应当为300 棵。

4.2.2 树的深度参数优化

决策树深度对模型的分类能力会有影响，较浅的树结构难以有效分割复杂的样本数据。测试结果树的深度为 20 之前，auc 值快速上升，说明增加树深度显著提升模型区分风险的能力。在深度大于等于 20 之后，auc 面积值逐渐平稳，后期如果继续增加则可能导致过拟合。因此选择深度为20 比较合适。

4.3 特征重要性排序

图4-1 特征重要性排序

此外，本文还绘制了特征重要性排序图（如图 4-1），展示了各个特征对模型预测的贡献度，这有助于理解哪些特征对模型预测影响最大。可以看出股权制衡度，投资者比率，管理层薪酬等指标对企业内部控制质量的影响较大。

5、结论与建议

5.1 研究结论

本研究基于随机森林算法构建了电子设备上市公司内部控制缺陷预测模型，从内部治理、财务表现及监督监管三个维度选取指标，实现对内控状况的有效评估。经因子降维与SMOTE 平衡处理后，模型在决策树数量 300 棵、最大深度 20 时达到最优 AUC 值，展现出较强的预测性能，可精准识别重大缺陷风险。

研究发现，股权制衡度、机构投资者持股比例及管理层薪酬总额是影响内控质量的核心因素。适度股权制衡有助于强化决策约束，机构投资者深度参与可提升治理效能，薪酬激励机制则直接关联内控执行动力。财务维度中，偿债与盈利能力指标对内控缺陷具有显著指示作用，反映财务健康与内控有效性的紧密关联。监督维度中，审计费用投入是保障内控有效运行的关键支撑。

5.2 研究建议

5.2.1 建立多层级风险预警机制，提前预测潜在风险

内部控制优化是企业发展过程中一个重要的环节。企业应构建包括集团、子公司、业务单元在内的三级风险预警体系，利用时间序列分析等工具预测趋势性风险，为风险应对提供前瞻性指导。同时，设置分级预警阈值，一旦触发自动启动应急预案，确保风险能够得到及时有效的控制。此外，企业还应将风险应对前移，从非结构化数据中提取风险信号，提前预警潜在缺陷，为风险应对争取更多时间。

5.2.2 建立可视化表盘，动态监控风险

通过开发内控仪表盘，实现对核心指标的动态监控与深度分析，可以显著提升企业风险管控效率。例如，缺陷整改率通过折线图展示历史整改趋势及当前完成进度，并设置红 / 黄/ 绿三色阈值警示区，一旦整改率低于预设标准，系统自动触发预警。同时可以采用环形进度图或柱状对比图等，实时显示各部门内控合规评分，并与行业基准线叠加呈现，帮助管理者快速识别执行短板。此外可以将企业运营数据映射至地理或组织架构图中。例如，以厂区平面图或部门矩阵为基底，根据审计问题密度、违规频率等数据生成色彩梯度，使管理层能快速锁定问题集中区域。

5.2.3 培育内控文化，将风险意识渗入全体员工

培育内控文化需制度约束与文化浸润双轨驱动，关键在于管理层以身作则。高层应在战略决策中嵌入风控逻辑，通过严格遵循流程、主动披露利益冲突等行为形成示范效应，带动全员重视。同时要构建“认知-实践-激励”三位一体机制，将内控质量纳入部门及个人考核，建立积分奖惩制度（如发现漏洞奖分、违规披露扣分），结果与晋升、奖金挂钩。通过持续强化，促使员工将风控意识转化为条件反射，筑牢企业内控根基。

参考文献：

[1] 梁启超 . 大数据环境下企业财务风险预警系统的构建 [J]. 中国市场，2025，（05）：159-162.

[2] 荣庆娇，赵宇彤，刘家豪 . 人工智能赋能中小企业内部控制风险防范：理论逻辑与路径探索 [J]. 全国流通经济，2025，（03）：77-80.

[3] 刘思婕，张洪维，李瀛，王风华，李晓雯 . 基于机器学习算法的内部控制评价研究——以 A 铁路装备公司为例 [J]. 商业会计，2024，（17）：22-27.

[4] 彭胜志，杨卓雅，马国勇 . 企业文化、内部控制与会计信息可比性——基于文本分析和机器学习的证据 [J]. 会计之友，2024，（14）：82-89.

[5] 刘春丽，林斌 . 基于深度学习的上市公司内部控制缺陷预测研究：新理论与新方法[J]. 会计研究，2024，（06）：119-134.

[6] 刘乡婷 . 基于 COSO-ERM 新框架的 C 建筑施工企业内部控制评价与优化研究 [D]. 河北工程大学，2024.

[7] 李丽 . 基于 COSO-ERM 框架下 M 电信公司内部控制体系优化研究 [D]. 内蒙古财经大学，2024.

[8] 袁涛，黄寰 . 基于机器学习算法的上市企业内部控制缺陷预测研究 [J]. 财会月刊，2024，45（07）：30-35.

*本文暂不支持打印功能