• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于通用报表技术与大数据知识库的电子税务局对接方法探析

赵长江
  
数字媒体号
2022年14期
青岛微智慧信息有限公司 山东省青岛市 266072

摘要:一通过种基于通用报表技术与大数据知识库的电子税务局对接方法,切实解决电子税务局变更升级工作的效率提升问题及局端接口接入多样性、需求多样性及地区差异化的统一标准化问题。

关键词:报表服务;税务申报;Flink流式计算

0引言

目前各种传统记账、报税软件,如云账房、浪潮云等财务软件功能简单,且一般都是单机版的,数据容易丢失,高端财务软件虽然提供云计算技术、移动应用技术,但是价格相对比较高。另外各省各市电子税务局申报表样大同小异,不完全统一,面对电子税务局变更升级时,变更工作量较大,难以高效完成。

本文通过一种高效安全、功能强大的通用报表服务来提高代理记账报税效率,解决电子税务局变更升级工作的效率提升问题及局端接口接入多样性、地区差异化的统一标准化问题。

1材料与方法

1.1人工智能机器学习生成通用报表的方法

获取目标企业的税务申报数据,对税务申报数据进行预处理:

基于税务申报表头数据,生成训练数据集;从训练数据集中分离出评估数据集,其中,各省各市的不同税种申报表表头包括共有表头以及特有表头,将各省各市的特有表头作为评估数据集;构建满足评估标准的算法模型,利用训练集对算法模型进行优化训练,得到优化算法模型;利用评估数据集验证优化算法模型;将优化算法模型序列化,作为通用报表。数据准备,主要是指各类申报表表头数据,预先将各省各市的不同税种申报表表头进行采集;评估算法,主要是为寻找最佳的算法子集;具体地,包括:

①分离出评估数据集,以便于验证模型。将采集表头数据(包含相同和不同表头数据,各省各市申报表头有相同的部分,也有各自独特的部分,把独特的部分作为特有表头。)作为一个训练数据集,用K折交叉验证来分离数据集,将不同表头数据作为一个评估数据集,实现分离;

②定义模型评估标准,用于评估算法模型。评估标准,具体地,包括从评估数据集中选取出的数据表头是否准确;

③根据评估标准,比较评估算法的准确度,得到一个准确度足够的算法。

优化模型,对每一种算法进行调参,得到最佳结果,使用集合算法来提高算法模型的准确度;

结果部署,通过验证数据集来验证被优化过的模型,通过整个数据集来生成模型,将模型序列化,作为通用报表。

1.2获取目标企业的税务申报数据的方法

获取目标企业的税务申报数据,对税务申报数据进行预处理,其中,税务申报数据包括第一税务申报数据和第二税务申报数据,第一税务申报数据包括企业发票数据、财务数据等数据,第二税务申报数据包括税务局端申报期初数据根将目标企业与通用报表进行对接,对接完成后,通过API接口获取目标企业的第一税务申报数据。

将目标企业与通用报表进行对接的方法为:目标企业与第三方签署线上或者线下协议,通过API接口调用验证目标企业的身份,验证成功才允许调用目标企业的第一税务数据,其中,第三方配置有通用模板。

将通用报表与电子税务局进行对接,对接完成后,通过API接口获取目标企业的第二税务申报数据。

将通用报表与电子税务局进行对接的方法为:第三方与电子税务局签署电子税务局准入接入协议,通过API接口调用验证目标企业的身份,验证成功才允许调用目标企业的第二税务数据。

汇总第一税务申报数据和第二税务申报数据,得到目标企业的税务申报数据{2}

1.3税务申报数据进行预处理的方法

对税务申报数据中的错误项、缺失项、重复项及冗余项进行数据清洗;利用回归模型的系数对清洗后的税务申报数据进行特征选择;将特征选择后的税务申报数据转换为统一的格式。

对采集数据,首先进行数据清洗,即对数据冗余、数据重复、数据不一致的进行数据处理。处理方式:如果高度疑似的样本是挨着的,就可以用滑动窗口对比,为了让相似记录相邻,可以每条记录生成一个hash key,根据key去排序。

数据清洗结束后,利用回归模型的系数进行特征选择,越是重要的特征在模型中对应的系数就会越大,而跟输出变量越是无关的特征对应的系数就会越接近于0。根据系数大小排除系数小的特征属性,选择系数大的特征属性。

特征选择后,进行数据转换。对非数值型进行类别转换,即将非数值型转换为数值型,对定类型,使用独热编码,对定序型,使用序号编码。便于后续处理。

1.4 Flink流式计算方式进行计算

基于通用报表技术与大数据知识库的电子税务局对接方法,其特征在于,对预处理后的税务申报数据采用Flink流式计算方式进行计算,将计算结果应用到所述通用报表中,得到目标税务申报表的方法包括:

将预处理后的税务申报数据转换为税务数据流;通过配置文档将税务数据流填入通用报表对应位置,得到目标税务申报表,完成目标企业与电子税务局的对接。

税务申报数据源不断产生数据形成流,通过计算生成新的流,不断去更新目标数据源,实现结果数据的实时更新。通过预先设定的触发条件,根据触发条件进行数据输送和相应计算。其中,预先设定的触发条件,具体包括:当数据源产生新的数据流时,将数据流划分为windows,对windows进行聚合。按照时间生成windows,每当满足滑动步长时,会针对windows执行一次计算,生成新的流。

通过配置文档,将数据流与通用报表进行对应构成映射关系对照表。配置文档中预先根据数据特征及类型与通用报表构成映射关系对照表为:[特征(类型),位置],当新的数据流到达后,通过配置文档的设置自动填入通用报表对应位置。

2结论

本文通过一种基于通用报表技术与大数据知识库的电子税务局对接方法,具体涉及数据处理技术领域,方法包括:获取税务申报表头数据,通过人工智能机器学习生成通用报表; 获取目标企业的税务申报数据,对税务申报数据进行预处理;对预处理后的税务申报数据采用Flink流式计算方式进行计算,将计算结果应用到通用报表中,得到目标税务申报表。问切实解决电子税务局变更升级工作的效率提升问题及局端接口接入多样性、需求多样性及地区差异化的统一标准化问题。

参考文献:

[1]基于模糊层次法的改进型网络安全态势评估方法[J].李方伟;杨绍成;朱江.计算机应用,2014(09).

*本文暂不支持打印功能

monitor