• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于Python的大数据审计应用研究

——以R咖啡财务问题为例

郑悦 艾青 吴有为
  
安家(建筑与工程)
2022年1期
湖北经济学院 湖北 武汉市 430000

摘要:2017年3月中共中央办公厅、国务院办公厅印发的《关于深化国有企业和国有资本审计监督的若干意见》提出“创新审计理念,完善审计监督体制机制,改进审计方式方法”。与此同时,社会审计也加大了对大数据技术的重视,中国注册会计师协会(2017)提出了研究大数据、人工智能等先进信息技术在注册会计师行业的落地应用,促进会计师事务所信息化。

关键词:Python程序语言;大数据审计;财务问题

随着大数据、人工智能与区域链等新技术的出现,传统的审计技术受到了严重的冲击,构建集中统一、高度权威、全面覆盖的审计监督体系是未来的趋势,因此审计思维的改变以及审计技术的更新换代就迫在眉睫,而Python的数据分析技术能够在大众容易忽略的互联网网络页面对可免费公开获取的有效数据集进行爬取、清洗、汇总、分析来可视化分析财务信息,以此来弥补审计数据的不足,提高大数据审计效率。

一、Python大数据审计基础理论

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它能够根据不同的程序代码设定指令,自动获取网页内任何权限的信息数据,并对抓取到的数据进行分类整合处理。而Python作为现下应用最广泛的网络爬虫技术的一种,具有简单、解释型、交互式和可移植的特点。Python可以按照个体需求设计相应的程序自动抓取有效的信息,它可从网络上标准资源额地址中抓取网页中的信息,从而获取在普通审计中难以收集的重要资料。

1.1Python大数据审计如何应用到审计过程中

在审计过程中,审计人员可以利用Python高效整合被审单位的各项数据,不仅能够提高工作效率,还能验证被审单位所提供数据的真实性,并且还可以通过Python 强大的搜索能力,从外部网站收集第三方证据,这些证据往往最容易被忽略,但是在审计过程却有极大的作用。其应用步骤如下:(1)确定目标,根据审计目标确目标数据。(2)网页分析,主要对目标网页的数据访问路径和逻辑进行分析。(3)获取数据,基于对网页的结构分析,抓取数据。(4)数据的筛选和清洗,对所获得的数据进行可视化的呈现,通过编辑建模分析语言,可以呈现出 Excel 分析结果,同时借助 SQL 查询,获取最终的审计数据。

1.2国内外学者的研究成果

大数据的优势都有目共睹,所以开发大数据在审计方面的应用也是各个国家的重要任务。国外学者BrownLiburd(2015)认为比起技术,更重要的是提高审计人员的能力,从而帮助大数据审计的的发展。AICPA组织也提出审计大数据分析需要组合多种数据源和多种分析结果,从而产生更有意义的额外信息;Earley(2015)分析了大数据技术给审计工作带来的机遇和挑战,研究了大数据技术在CPA审计中的应用。

国内方面,审计中的大数据发展始于2013年。阮哈建、刘西友(2013)主要研究了大数据审计在审计机关的应用,并且讨论了如何在大数据环境下转变审计思维以及创新审计方法等问题[1]。陈伟, Smieliauskas(2016)结合了电子数据审计的原理重点研究了大数据环境下电子数据审计面临的机遇与挑战, 以及大数据环境下开展电子数据审计的方法[2]。

二、我国大数据审计现状和上市公司财务问题现状分析

2.1我国大数据审计现状分析

随着大数据和信息技术的高速发展,我国审计行业也在新的环境下积极探索进行审计转型升级,逐步实现审计数据化和审计信息化;我国相关学者对大数据审计的研究起步相对较晚,仍有许多难题与挑战亟待突破。

总体来看,我国目前大数据审计现状呈现以下三个特征:1.大数据审计应用领域逐步拓展,基本涵盖大部分审计类型;2.大数据审计技术方法逐渐丰富,渐渐渗透审计各个阶段;3.大数据审计人才十分匮乏,传统审计向大数据审计转型仍有风险。

2.2上市公司财务问题现状分析

随着我国资本市场的快速发展,我国上市公司的数量及规模也有着不同程度的增长,但在欣欣向荣的背后,上市公司的财务问题也是层出不穷。由于我国层出不穷的财务问题的出现,给我国资本市场造成了不良的影响,但目前许多上市公司在防止财务问题方面还存有许多不足,譬如公司的管理人员为了美化业绩表现而出现了财务问题现象,再比如一些上市公司高管不注意会计工作的规范化,没有指定成熟的内部控制系统从而助长了财务问题现象的滋生,这些问题需要引起公司管理层及相关监管机构人员的重视,并不断推陈树新,最终到达有效预防财务问题现象的目的。

三、R咖啡财务问题的案例介绍

3.1公司简介

R咖啡成立于2017年,总部位于中国厦门。自2017年6月注册成立后便开始快速扩张,公司于2018年1月在北京和上海开始线下店铺营业,于2019年5月在美国纳斯达克州上市,成为世界范围内从公司成立到IPO最快的公司。截至到2021年7月,R在全国拥有5323家门店。仅花了两年的时间便超越了星巴克在华门店数量,成为中国最大的咖啡连锁品牌,是技术驱动的新零售模式的先驱。

3.2问题过程

2020年1月31日,以做空中概股闻名的浑水声称,收到了一份匿名做空报告,直指国内互联网咖啡品牌R咖啡数据造假,报告称:“该公司从2019年第三季度开始捏造财务和运营数据,已经演变成了一场骗局”。

2020年4月,R咖啡上演了一出史无前例的“自爆”。4月2日R咖啡宣布成立特别调查委员会。委员会发现,公司2019年二季度至四季度期间,伪造了22亿元人民币的交易额,相关的成本和费用也相应虚增 。随后,R的审计机构安永会计师事务所坐实了这一事实,推动了该事件的曝光。

2020年5月19日,R咖啡被要求从纳斯达克退市,申请举行听证会。6月29日,R咖啡正式停牌,进入退市程序,结束了400多天的上市之旅。

2020年7月31日,证监会宣布,R咖啡财务造假调查处置工作取得了重要进展。调查显示,R咖啡境内运营主体及相关管理人员、相关第三方公司大规模虚构交易,虚增收入、成本、费用,虚假宣传等行为,违反了我国会计法、反不正当竞争法的相关规定。财政部、国家市场监管总局、证监会将依法对R咖啡境内运营主体及相关责任人予以行政处罚。

四、Python大数据审计技术在R财务问题中的应用

4.1应用前的准备与思考

我们拿单个门店每日销售商品数量为例,首先我们要知道R门店数,R仅仅在季报中公布季度门店编号,但是每周新开门店的列表会在R官方公众号中公布,此时我们可以利用Python爬取公众号中的文章获取每周门店编号,这样提高了工作效率,避免了繁琐的人工操作,同时还提高了工作结果的准确性。

4.2案例中的实际应用

截至到2021年7月31日,R在全国共有5323家门店,而在2019年12月31日,R在全国仅有4507家门店。在新冠疫情的持续影响下,R咖啡的门店数量不减反增。无论是在2019年R陷入造假风波还是今天,想在如此庞大的数据中通过传统审计方法与思维发现其在2019年虚假交易达到虚增营业收入与利润的目的是不容易的。下面将介绍Python技术在R咖啡造假案例中的运用。

R咖啡成立于互联网高速发展的时代,因此它的定位也是互联网咖啡。即通过官方APP、微信小程序、美团等线上点餐的方式完成交易,因此传统审计的方法并不完全适合对R咖啡进行审计。在这种情况下,审计人员仅关注财务报表数据中的营业收入情况是远远不够的,应结合线上数据的调查研究进行多维度审计。

通常情况下,审计的数据往往是存在一定关联的。在R咖啡造假案例中,门店数量、地理位置、平均每日的门店客流量、平均每日的门店销售数量、平均每日门店的每单售价等都是互相关联的。Python技术在对R咖啡进行审计的过程中可以对海量数据进行爬取、清洗、汇总分析、智能地进行异常行为预测和判断,再利用可视化、图形化方式进行展现。在这个过程中,大多时候都是机器在运作,审计人员只需重点关注分析可视化的结果,大大减轻了审计人员的工作量负担。

同时,在R咖啡案例中,审计人员也可以从不同角度比较分析公司某些财务数据是否存在异常。例如,要分析R在2019年收入是否异常,可以对该行行业环境、经营环境等方面进行数据爬取来对比分析。一般而言,公司的营业收入与行业整体趋势基本一致,同时分析公司经营环境风险,以评估R在收入方面的可能存在的收入舞弊风险。

下面将以Python获取R咖啡各省门店数量为例编写代码:

df = pd.read_excel(d’/downloads/input/coffee/R咖啡.xlsx’)

df.head(3)     读取门店信息

df.info()

df[‘省份’] = df[‘ad_info’].str.extract     处理省份

df[‘城市’] = df[‘ad_info’].str.extract     处理城市

df[‘区/县’] = df[‘ad_info’].str.extract    处理区县

province = df[‘省份’].value_counts()[:20]

结语

直至2019年底,R咖啡的直营门店数量高达4507家,平均每月销售量为2760万份。这是一个非常庞大的数据,想要从如此繁杂的数据中找到虚假交易,依靠人工显然是非常困难的。所以大数据审计的出现,无疑是为这一难题提供了解决方法,利用网络爬虫的高效收集以及处理信息的能力,可以大大减少审计时间和成本,加强审计效率及准确性。

R咖啡旗下的门店众多,一家一家的进行数据处理显然是相当耗费时间精力的,但是利用Python就可以把这些重复性的操作程序化,而且还能根据审计的要求定制数据处理模式,在保证质量的同时还能提高效率,一举多得。最后,审计人员可以依据审计实施阶段所得到的的数据建立相应的数据模型,利用云平台得到期望的审计数据,再将数据输入,就可以通过数据模型得到大体的审计评价。并且可知R的定位是互联网咖啡,采用线上运营的推广模式,消费者可以通过线上平台购买咖啡,所以对R的营业收入进行审计时,不仅可以把财务报表作为依据,还可以利用Python统计R线上销售的营业额作为审计证据,通过数据建模智能识别异常数据,再利用可视化、图形化方式呈现出来。利用Python可以做到传统的基本面分析无法做到的内容,如Python能快速精准的发现异常行为和线索,通过一系列的比较分析,能从不同数据库里的数据中发现潜在的舞弊迹象或线索,并抽丝剥茧,了解可能的风险规模并进行验证。并且对于行业市场准入、市场竞争程度及产品生命周期为内容的产品市场信息等等常规审计手段无所获取到的信息,大数据审计都能做到常态披露。

参考文献

[1]阮哈建,刘西友.大数据与审计机关的应对策略[J].中国内部审计,2013(06):84-85.

[2]陈伟,SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016,43(01):8-13+34.

*本文暂不支持打印功能

monitor