• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于PCA和DBSCAN的无监督中小企业信用评估方法研究

刘珊
  
大海媒体号
2024年162期
安徽粮食工程职业学院,安徽 合肥 230000

摘要: 文章针对中小企业信用评估难以令人信服,导致中小企业融资困难,进而出现资金缺乏的问题。本文首先采用主成分分析方法对数据进行降维,保留数据主要信息的同时去除数据的冗余信息。其次,本文采用DBSCAN聚类方法对降维后的企业数据进行无监督分类,它从样本密度的角度出发,可以发现任意形状的类簇,且对噪声数据鲁棒。最后,本文卡林斯基-哈拉巴斯茨指数和戴维斯-伯尔丁指数来度量聚类结果的准确性。实验结果表明,本文提出的无监督信用评估方法比典型的传统方法聚类效果更好,能有效实现中小企业信用评估。

关键词: 中小企业;主成分分析;DBSCAN无监督模型;信用评估

基金项目:“基于深度学习的上市公司财务造假预测研究”安徽省高校哲学社会科学研究项目—重点项目(2023AH053268)、“‘数字化+新商科’背景下高职院校财务管理专业课程教学改革与研究”安徽省级质量工程教学研究项目 (2022jyxm420)

一、引言

中小企业作为国民经济结构中的重要组成部分,在解决社会就业和稳定经济增长方面发挥着积极的作用。但值得注意的是,尽管广大人民对他们为我国经济发展做出突出贡献给予了认可,可由于多数中小企业经营周期短、规模不足等问题,造成了其融资渠道狭窄和阻碍了自身的成长进步。

依据历来金融数据发现,商业银行发放的贷款总额中,中小企业占用的授信额度不到3%,此外,由于融资难导致的资金短缺,部分中小企业最终不得不被市场所淘汰。事实上,大多数中小企业存在融资困难的问题关键原因就是其信用度不够,因此,对中小企业进行科学、合理、可信的信用评估显得尤为重要[1]。然而,当前我国有关于信用评估的体系和工具并不十分先进,其评估结果也难以令人信服,因此,在当前的时代背景之下,我们必须加快脚步,尽快构建最适合我国中小企业发展的融资信用评估体系,最大化规避不良信贷风险,实现中小企业与贷款行业博弈双方的平稳运行和合作共赢[2]。

二、文献回顾

企业信用评估整体上经历了从主观方法到客观方法的历史演变,早期主观方法依赖的是专家们的知识经验和判断,因无法建模量化、人为操作强,故预测效果不够稳定和理想。近年来,在信用评估问题和风险需求日益剧增的背景下[3],越来越多的数据统计和机器学习方法被应用到信用评估的场景中。而基于机器学习的企业信用评估方法大致又可以分为两大类,即有监督的方法和无监督的方法。

有监督的方法通常需要带标签的数据进行模型训练,训练好模型参数后,再将测试数据输入训练好的模型即可得到对应的标签。典型的有监督的企业信用评估方法包括k-近邻、随机森林、BP神经网络和SVM等。奚梦缘[4]采用k-近邻判别分析对中小企业进行信用评估,其类别准确率较为均衡,总体错分率较低,具有较好的适用性。安玉琢等[5]提出基于决策树的企业信用风险评估方法,能筛选信用良好企业,降低企业信用风险。赵亚等[6]在已有指标体系的基础上引入非财务指标,采用随机森林方法建立企业信用风险评估模型,并从指标类型和评估方法两个角度对所建模型的性能进行评价。刘春玲等[7]提出了一种基于改进的BP神经网络的方法用于企业信用评估,能克服传统的BP算法存在效率低、收敛慢等缺陷,使之具有更好的学习效率。邹亚宝等[8]运用logistic回归模型对上市公司建立信用评级模型,能克服线性回归模型苛刻的假设条件带来的不足,并同时具备较高的准确性和较好的实用性。郑建国等[9]先对样本进行主成分分析,然后用SMOTE算法过采样得到数据平衡后的样本,最后采用网格搜索法进行参赛寻优后的SVM用于企业信用风险评估,该方法具有较高的稳定性和预测能力。涂著刚等[10]先建立适应我国国情的中小型企业信用评级指标体系,然后基于贝叶斯算法构建AdaBoost-BOA信用评估模型,具备优良的分类性能。

上述有监督的方法在训练模型时所使用的训练集,除企业数据外,还需要对应的数据标签,这些数据标签是由专业人员进行标注的。但是,获取大量正确的带标签的数据耗时又耗力。实际上,无标签企业数据的数量要远远超过有标签数据的数量,如何利用大量无标签企业数据获取“知识”,成为了极具挑战性的研究课题。与有监督信用评估方法不同,无监督的信用评估方法不需要人工标注的数据,可以直接从无标签企业数据中学习特征用于信用评估,极大地降低了信用评估的成本。

为了实现对中小企业信用的有效评估,本文提出基于PCA(Principal Components Analysis)[11]和DBSCAN (Density Based Spatial Clustering of Applications with Noise)[12]的无监督中小企业信用评估方法。本文采用PCA[11]对企业数据进行降维,能达到去除冗余信息和降低数据维度,能大幅减少计算的时间,从而提高聚类速度。此外,本文采用DBSCAN[12]对降维后的企业数据进行无监督分类,它可以发现任意形状的类簇,且对噪声数据不敏感。本文建立的信用等级评估方法能够快速地对企业信用进行无监督分类,进而为客户投资选择时提供相关参考信息。

三、基于PCA和DBSCAN的无监督信用评估方法构建

(一)数据分析——无监督模型构建

1. 数据降维

进过预处理后的原数据依旧包含很高的维度,大的数据量在后续对数据的计算中对计算资源的要求也会更高,必然会影响到数据处理的速度。然而,并不是每一个维度的数据都有等同的重要性,数据中必然包含冗余信息,即一些重复表达数据和噪声。也不是每一个维度的数据对我们的目标聚类拥有同样的重要性,于是我们选择对数据集进行降维处理,拟剔除数据冗余,去除噪声,获得其中的主要成分。降维后能反映原有大部分信息的数据对计算机内存的要求大大降低,大幅度减少了计算的时间,从而提高聚类速度。其中最具有代表性的方法为主成分分析(PCA)[11]、线性判别分析(LDA)[13]、局部线性嵌入(LLE)[14]。

PCA作为经典的降维方法,可以去除原始数据中高维变量的线性相关部分,只保留线性无关的变量,并称他们的组合系数为投影矩阵,其目的是在尽可能少地丢失原始数据信息的前提下降低数据维度[3],以减小存储空间和后续操作的计算量。PCA可以理解为给原始数据寻找一组新的正交基,即主成分,使其在投影后的方差尽可能大,也就是包含更多的原始信息。从运算角度上说,求解最大方差可以转换为求解数据协方差矩阵的特征值,特征值越大保留的数据原始信息量越大,如果特征值较小,则说明数据在该正交基上包含的信息较少,可以删去,借此达到降维的目的。假设在N维空间中,我们可以找到N个正交基,取前r个来进行近似,就可以把N维的空间压缩到r维。

2. 聚类模型

聚类分析[15]又称群分析,是一种无监督的机器学习方法,在物联网、云计算等新兴技术飞速发展的环境下,各种对于大数据的处理技术变得日益重要。聚类分析指在没有先验条件的情况下,根据各个样本之间的相似程度,从一个数据集中发现其潜在规律,然后按照其规律进行分组,使得各组之间差异性尽可能大,组内相似性也尽可能大。也就是说,聚类是一种同时检查组内同质性和组间差异性的过程。聚类是无监督学习,不需要事先给出标签。本文通过聚类的方法给结合数据集给不同的中小微企业进行分类。常见的聚类算法有K-means聚类算法[16]、自组织映射(SOM)[17]、DBSCAN[12]、模糊C均值聚类算法(FCM)[18]等。

DBSCAN算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN得到的聚类簇可以是任何形状的,而其他传统聚类算法如K-means算法则属于凸聚类,得到的每个聚类簇都有一个凸包。DBSCAN的核心概念是核心样本,核心样本指处于高密度区域的样本。因此,一个聚类就是一组核心样本,每个核心样本之间密度可达(通过一定的距离测量),还有一组非核心样本,这些非核心样本接近核心样本(但本身不是核心样本)。

DBSCAN算法具体流程如下:

(1)先找出降维后的各样本的邻域并确定核心对象集合。

(2)然后从核心对象集合中随机选择一个核心对象当作种子,找出由该种子密度可达的所有降维后的样本,生成聚类族。

(3)将上一步选中的种子从核心对象集合删除,从更新后的核心对象集合重复上一步生成下一个聚类族。

(4)重复步骤(2)和(3),核心对象集合为空集。

(二)模型评价标准

由于采用非监督学习算法且不知道数据的真实标签,因此只能从聚类的内聚度、方差等方面来度量聚类的好坏,本文采用如今比较主流的聚类评价指标CH指数(Calinski-Harabasz Index)[19]和DBI指数(Davies-Bouldin Index)[20]。

1、CH指数

一个好的CH指数 (也称方差标准比较)模型应该具有小的类中距离和大的类间距离。其优点是当群集密集且分隔良好时,分数会更高,速度快。缺点是凸聚类的值会比其他类型更高。CH指数越高,说明模型的聚类越好。

2、DBI指数

该指数表示聚类之间的平均相似度,其中相似度是一种将聚类之间的距离与聚类本身的大小进行比较的度量。零是最低得分,值越接近于零,则表示分区越好。其优点是比轮廓系数的计算更简单且该指数专注于数据集固有的数量和特征。其缺点为凸聚类一般分数更高且其对距离的度量限制在了欧几里得空间。

四、实验方案

(一)实验介绍

本实验以第十一届中国大学生服务外包创新创业大赛企业命题“金融科技服务平台企业数据的无监督分类系统”提供的某一地市的小微企业为研究对象,以该地市小微企业覆盖企业背景、企业稳定性、企业经营能力、企业经营风险、司法风险、信用风险等多个方面的数据作为数据来源。建立一种无监督的分类模型,利用小微企业包含的特征维度信息,对小微企业进行簇划分,划分的每一个簇都有有效的特征或者标签去描述该簇的特征,每个簇之间形成较为明显的划分界限,即最终形成企业合理的划分。

实验分为三大部分,第一部分是数据预处理,通过对数据集进行数据合并、针对某些数据进行处理、提取兴趣列并进行缺失数据填充和数据量化、缺失数据补充、数据输出操作。第二部分是进行降维,使用经典的PCA对数据进行分析,在保持数据主要信息的同时去除冗余信息。数据集从原本的322维经过PCA下降到50维时,依旧能保持90%的原始数据信息,这能大大提高聚类速度。第三部分是进行聚类,聚类选择的是DBSCAN算法,在没有先验条件的情况下,对数据进行无监督分类。DBSCAN聚类算法从数据密度的角度出发,可以发现任意形状的类簇,且对噪声数据鲁棒。

(二)实验结果

我们把K-means和FCM聚类方法作为对比方法。首先对K均值在不同K值上进行了测试,比较其CH指数和DBI指数。得到结果如下。

从结果可知,当K=6时,K均值聚类算法有最好的聚类效果,但是和DBSCAN相比,其DBI指数过低,虽然其CH指数较高,但由于K均值运行时间较长,且无法对非凸型的数据进行聚类,综合考量,我们选择DBSCAN作为我们的聚类算法。

其次,我们对FCM算法进行了测试。

从测试结果来看,FCM有着和DBSCAN相似的效果,但是FCM在整个数据及上运行一次需要十五到二十分钟时间,这大大降低了大数据分析所要求的实时性。综上所述,我们提出的基于PCA和DBSCAN的联合方法在聚类效果和耗时方面取得了很好的平衡。

(三)实验分析

由于聚类数据维度较高,即便经过降维之后仍有20维,难以进行直接绘图,直观地将聚类结果进行展示。因此我们将选择t-SNE算法对我们的数据进行降维绘图,在尽可能保留其分布特点的前提下输出聚类结果。t-SNE[21]是由Laurens van der Maatens和Geoffrey Hinton在2008年开发的一种无监督的非线性技术,主要用于数据探索和高维数据的可视化。它将数据点之间的相似性转换为联合概率,并试图最小化低维嵌入和高维数据的联合概率之间的Kullback-Leibler差异,让观测者直观地了解数据在高维空间中的排列方式。

考虑到聚类的实际应用意义,我们在t-SNE降维绘图的基础上进一步开发出Web可视化功能。首先通过t-SNE算法将数据降到3维后,通过调用python的dash扩展包进行html网页开发,从而实现可互动的数据可视化网站的构建,将打上标签后的数据导入并调用dash功能实现3维图的可视化。

网页端实现的功能包括如下四点:

1.输入企业的名字来查询企业的信息。

2.需要显示的类别来改变三维图展示的类别。

3.通过对可视化和互动三维图像进行平移、缩放、旋转等操作可以直观的对每一类数据进行观察;当鼠标移动到每一个点上时都会显示自己的分类标签。

4.实现了网页文档,整合了全部数据信息。可以通过改变上面的指标,显示对应企业的相应信息,支持拖动操作,可以轻松查看每一个公司的全部信息。

五、总结

本文提出基于PCA和DBSCAN的无监督中小企业信用评估方法。与目前的企业信用查询系统相比,我们建立的信用等级评估方法能够快速地查询企业信用,进而为客户投资选择时提供相关参考信息,并且具有权限限制,能有有效的保护客户的隐私,同时对搜索的次数进行限制,避免恶性获取数据,搜集数据更加系统化、易操作。同时,通过科学合理的评估,引导更多的投资人对中小企业的关注和扶持。当然,中小企业也要适应科学的信用评估手段,强化企业的信用意识,促进企业的信用管理,提升企业的信用空间,进而可以为企业的长远发展奠定坚实的基础。

参考文献:

[1] 卿固,辛超群,王维维.科技型中小企业信用风险评估研究—以辽宁省为例[J]. 北方金融, 2015(08):8-11.

[2] 孙治河,张雷.基于机器学习算法的中国小企业信用评估研究[J].无线互联科技,2021(06):94-95.

[3] 张雷.基于混合遗传算法—支持向量机的中小型企业信用评估模型[J].河南师范大学学报(自然科学版)2022(02):79-85.

[4] 奚梦缘.中小企业信用指标体系构建及评估模型的最优化[D].南京大学,2018.

[5] 安玉琢,鲁小妮.基于决策树技术的企业信用风险评估[J].河北工业大学学报,2006(06): 64-68.

[6] 赵亚,李田,苑泽明.基于随机森林的企业信用风险评估模型研究[J].财会通讯:中,2017(10):110-114.

[7] 刘春玲,刘萍,赵可新.基于BP神经网络的企业信用评估系统研究[J].微计算机信息,2009(09):27-28+286.

[8] 邹亚宝,梁红漫.基于logistic回归的我国上市公司信用评级模型研究[J].西南金融,2013(03):14-19.

[9] 郑建国,李新.基于SVM模型的企业信用风险评估研究[J].企业科技与发展,2020(05):220-221.

[10] 涂著刚,李正军,杨敏.基于AdaBoost-BOA的中小企业信用评估模型[J].计算机与数字工程, 2021(06): 1277-1280.

[11] Abdi H, Williams L J. Principal component analysis[J]. Wiley interdisciplinary reviews: computational statistics, 2010, 2(4): 433-459.

[12] Schubert E, Sander J, Ester M, et al. DBSCAN revisited, revisited: why and how you should (still) use DBSCAN[J]. ACM Transactions on Database Systems (TODS), 2017, 42(3): 1-21.

[13]Izenman A J. Linear discriminant analysis[M]//Modern multivariate statistical techniques. Springer, New York, NY, 2013: 237-280.

[14] Roweis S T, Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J]. science, 2000, 290(5500): 2323-2326.

[15] Chao G, Sun S, Bi J. A survey on multiview clustering[J]. IEEE transactions on artificial intelligence, 2021, 2(2): 146-168.

[16] Likas A, Vlassis N, Verbeek J J. The global k-means clustering algorithm[J]. Pattern recognition, 2003, 36(2): 451-461.

[17] Van Hulle M M. Self-organizing Maps[J]. Handbook of natural computing, 2012, 1: 585-622.

[18] Askari S. Fuzzy C-Means clustering algorithm for data with unequal cluster sizes and contaminated with noise and outliers: Review and development[J]. Expert Systems with Applications, 2021, 165: 113856.

[19] Łukasik S, Kowalski P A, Charytanowicz M, et al. Clustering using flower pollination algorithm and Calinski-Harabasz index[C]//2016 IEEE congress on evolutionary computation (CEC). IEEE, 2016: 2724-2728.

[20] Xiao J, Lu J, Li X. Davies Bouldin Index based hierarchical initialization K-means[J]. Intelligent Data Analysis, 2017, 21(6): 1327-1338.

[21] Van der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of machine learning research, 2008, 9(11).

作者简介:刘珊(1989-),女,安徽合肥人,硕士,安徽粮食工程职业学院,讲师。主要研究方向:财务会计。

*本文暂不支持打印功能

monitor