• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于深度学习的勘察单表格识别方法

唐源磊
  
大丰媒体号
2022年21期
云南电网有限责任公司昆明供电局 云南昆明 650011

打开文本图片集

摘要:电力勘查单表格识别中,文本识别效果差,表格结构复杂识别准确率低,同时难以满足复杂的表格结构。基于此,本文提出了一种基于电力勘查单表格识别的方法。该方法主要分为三个阶段:文本检测、文本识别和表格结构识别。在文本检测阶段,采用DBNet模型来进行文本检测、并结合CRNN_CTC来进行表格文本识别。同时考虑到表格的结构较为复杂,基于此,本文采用CNN_AttentionHead来进行表格结构识别。本文提出的方法对于电力勘查单效果比较好,能够满足企业的实际业务要求。

关键词:DBNet;CRNN_CTC;CNN_AttentionHead;电力勘查单识别;文本检测;

Abstract:In the single form identification of electric prospecting, the text recognition effect is poor, the recognition accuracy of the form structure is low, and it is difficult to meet the complex form structure. Based on this, a method based on single form identification of electricity survey is proposed in this paper. The method is divided into three stages: text detection, text recognition and table structure recognition. In the text detection stage, DBNet model is used for text detection and CRNN_CTC is used for table text recognition. At the same time, considering the complex structure of the table, CNN_AttentionHead is used to identify the table structure. The method presented in this paper has a good effect on electric survey sheet and can meet the actual business requirements of enterprises.

Key words:DBNet;CRNN_CTC;CNN_AttentionHead;tor status recognition;Substation protection device;Deep learning;Object Detection:Identification of electric survey sheet; Text detection;

1引言

随着电力生产需求剧增,在电力作业现场会产生大量的勘查单,电力勘查单中存在:作业单位、工作任务、勘查负责人、线路名称、作业地点、勘查内容等关键信息。以往的电力作业勘查单管理阶段,都需要大量的人力来进行手工录入,同时需要进行多轮复核以保证勘查单的质量。近些年,随着深度学习的不断发展,基于深度学习的表单识别方法层出不穷,该方法识别效率高、速度快、时效性强,为了满足电力企业的管理要求,本文针对电力勘查单的特点,提出了一种基于深度学习的勘查单表格识别方法。

针对现场勘察表单的结构情况,现场勘察表单相比于正常的表格结构要更为复杂,同时内容繁多,基于此,本文提出的勘查单表格识别方法在文本检测和文本识别阶段使用DBNnet和CRNN_CTC来进行表格文本检测与文本识别;并且针对勘查单的复杂结构,在表格结构识别阶段使用CNN_AttentionHead,对于复杂的表格结构效果比较显著。

2相关研究

目前表单识别算法已经从基于传统人工神经网络技术逐步扩展到网络深度学习,表格识别方法其准确率已经达到了比较高的水平,检测与识别逐渐实现一体化。但由于表格应用场景较为广泛,表格形式多种多样,文档图像质量参差不齐,表格结构识别仍存在着较大的挑战:1)跨页表格对结构识别带来的识别困难;2)表格线未对齐带来的行列判定 困难;3)表格嵌套等问题[1]

在基于深度学习的表单识别过程中,很多学者分别进行了研究。徐梁等学者[2]提出了一种基于对比度特征深度学习的图像表格识别方法,通过数学形态学的方法构建对比度特征进行图像单元格增强,将增强图像作为ResNet-18深度学习模型的输入进行训练。杨茜[3]等学者设计了一个多类型表单关键信息识别系统,在文本检测阶段提出了一种多任务学习网络Multi-TFC,同时完成表单分类、框架提取和文本检测三个子任务,将多个底层任务融合到一个网络结构中,主要以VGG-16作为基础图像特征提取网络,来获取文本信息和表格结构信息。熊雨点[4]等学者使用于残差网络来进行表单定位,并结合Gabor与卷积神经网络来实现表单文字识别,该方法对汉字识别效果比较显著。卞飞飞[5]等学者设计基于建模相邻文本单元间边界区域的文本检测算法,提出边界建模思路与对齐损失函数设计,解决密集文本分割区域粘连问题;引入可微分二值化模块解决分割网络训练不充分问题,提高票据文本检测精度。任多等学者[6]针对表单票据存在折叠和弯曲的情况,使用改进的扭曲文档矫正模型DocUNet进行矫正,带有注意力机制和SE模块的AttentionDB模型和ASTER模型进行弯曲文本检测和弯曲文本识别,使用带有注意力机制和SE模块的Table-UNet模型对表单中的表格进行定位提取。王绍婧[7]提出了基于局部空间匹配的扭曲表单信息提取和基于布局结构迁移的可变长表单信息提取两种算法,该方法适应性强,有效解决了表单出现扭曲、长度可变的情况。

在电力勘查单中,电力勘查单中作业单位、工作任务、勘查负责人、线路名称、作业地点、勘查内容等关键信息。可以通过深度学习算法,将表格内容和表格结构检测并识别出来。电力勘查单与一般的票据相比,准确率和时效性的要求较高,识别错误可能会造成极大的影响和后果。基于此,电力作业勘查单识别方法需要具有很高的识别准确率和鲁棒性。

3基于深度学习的电力勘查单表格识别方法

3.1 DBNet勘查单文本检测

勘查单文本位置检测阶段使用DBNet模型来进行特征提取。在场景文本检测模型(Differentiable Binarization Network,DBNet)中,首先将图像输入到带有特征金字塔的ResNet主干网络中,特征金字塔通过自上而下的进行上采样,将上采样之后的特征与具有相同尺寸的特征进行级联得到特征图(F),特征图F用于预测概率图(P)和阈值图(T),之后通过P和F计算出近似二值图。概率图(P)表示像素点为文本的概率,阈值图(T)表示每个像素点是否为文本。对每一个像素点进行自适应二值化,二值化阈值不是预先设定的而是由网络学习得到的,将二值化这一步骤加入网络一起进行训练,这样最终的输出图对于阈值就会具有非常好的鲁棒性,在简化了后处理的同时提高了文本检测的效果。DBNet的网络结构如图1所示。

在DBNet的分割网络中将二值化操作加入到网络中进行联合训练,让网络自适应地学习图像中每个位置对应像素的阈值,可以更加准确地分离文本和非文本。标准二值化函数不具备梯度可微分的特性,所以无法加入网络中进行训练,于是就二值化的问题提出了一个DB(DifferentiableBinarization)模块实现可微分二值化,解决了梯度不可微的问题。DB模块具有可微性,这使得二值化过程可以加入到端到端模型的训练过程中。

3.3 CRNN_CTC勘查单文本识别

勘查单文本内容识别阶段使用CRNN神经网络模型来进行实现。CRNN是将CNN和RNN结合提出的一种神经网络模型。CRNN模型的显著优势是不需要对每个字符进行标注可以实现序列学习且对类序列对象的长度无约束,CRNN文本识别模型使用卷积神经网络来提取输入图像的深度特征,送入双向循环神经网络预测每帧序列的标签分布,最后使用CTC将特征序列转化为标签序列。CRNN模型使用CTC操作只关心哪些文字在图中出现了,而不必关心文字具体的位置和宽度,CTC损失是可导的,会引导NN模型进行训练,但是在场景文字识别问题中,各个时间片之间是含有一些语义信息的,CTC对于识别文本长度没有限制,且可以学习到文本序列的前后相关性信息。

CRNN主要是分为三个组件,模型结构如图1所示,由下至上,分别是CNN网络、RNN网络以及转录层。工作流程为:(1)输入图片先经过卷积层,提取得到一个特征序列;(2)接着RNN对特征序列的每一帧进行预测;(3)最后是输出层,对RNN的每帧预测结果进行转录,得到最终的一个标签的序列,也就是将RNN预测的每个字符组合得到一个完整的单词。

3.5 CNN_AttentionHead勘查单表单结构识别

在电力作业过程中产生的表单中,不仅包括文字还可能会包含表格信息。为了更好地对表单信息更好的识别,需要对表单进行版面分析,包括表格单元格定位与表格结构预测。将表单输入到版面分析的模型中,将得到预测表格结构的HTML信息和表格单元格坐标。

表格结构识别模型主要是由RARE算法实现,模型结构如图3所示,模型主要包括:CNN和AttentionHead组成。CNN模块主要是对输入图像进行深层特征提取,获取关键语义信息,避免特征冗余;AttentionHead部分对提取的特征进行特征强化,获取更为深层的语义信息,更好的预测表格结构。为了便于预测单元格结构信息,在AttentionHead的基础上增加了一个基于回归的分支来进行单元格结构预测。

4 电力勘查单表格识别方法实现

将数据预处理后,将电力勘查单输入到文本检测模型中,找到文本所在的位置信息,然后对检测到的文本框进行分割,将一张图片截取成多张图片输入到后续的文本识别模型中识别出文办框中的文字。得到文本信息后,需要针对表单信息,进行表单版面分析,检测表单表格结构信息及其单元格信息,在进行结构信息检测时,可能会得到多种检测结构信息,对于重叠的或者将为接近的检测线需要设置阈值进行过滤,在版面分析过程中,使用CNN_AttentionHead来进行表单结构检测和单元格结构检测。对于识别到的文本检测框,需要与单元格检测信息进行聚合,找到文本检测框在表格中所在的单元格,然后基于找到的位置,找到文本检测框的文本识别结果,得到单元格所在的文本值。然后将DBNet得到的文本位置信息与版面分析得到的单元格坐标信息进行聚合,通过文本检测框与单元格的IOU值来找到文本框所在的单元格;文本框聚合之后,需要对文本框进行从上到下,从左到右的排序,根据排序文本框的索引值找到对应的文本识别结果,然后文本识别的结果进行字符拼接并填充到单元格,实现单元格与文本聚合;将得到的结果与表格结构信息进行聚合,找到文本与表格结构之间的关系最终以表格的形式输出表单结构及其表单信息。

本文使用DBNet和RCNN来进行文本检测与文本识别,模型对于中英文的识别效果都比较显著,在识别过程中,通过建立特殊字符字典和电力专业词汇字典融入到模型中,强化模型的文本识别效果,能够较好的强化电力领域的语义理解。本文的方法实现流程图如图4所示。

由于电力勘查单表格结构复杂,为了提升模型的鲁棒性,在表格结构检测时使用CNN_AttentionHead模型,该方法能够较好的学习表格结构之间的差异,兼容性较强。为了提升表单结构检测的准确率,在表单结构检测过程中,对于比较常见的表单设置了表单模板,在表格结构检测的结果之上结合表单模板来进行匹配,来进行表单结构矫正,表格结构的识别效果也比较理想。

5结论

为了有效解决电力勘查单难以管控的问题,本文提出了一种基于深度学习的电力勘查单表格识别方法。为了提升勘查单OCR的识别效果,本文使用DBnet和CRNN_CTC来分别实现文本检测与文本识别,为了提升电力领域OCR识别效果,融入了电力领域字典与特殊字符字典来进行效果提升。其次,考虑到电力勘查单表格结构复杂,表单结构识别十分困难。基于此,本文使用CNN_AttentionHead来进行勘查单表格结构分析,得到表格结构信息和单元格信息。由于在结构识别过程中,对于同一条线段会存在多个预测结结果,需要设置阈值来进行结构信息过滤。其次,为了进一步提升表单结构识别的效果,在模型识别的基础结合表单模板库来进行表格结构纠正。总体而言,本文提出的方法有效解决了电力勘查单表格识别中存在的问题。通过结合深度学习算法来实现勘查单表格自动化识别,有效提升电力作业效率,满足了电力企业的现场作业要求。

参考文献:

[1]高良才,李一博,都林,张新鹏,朱子仪,卢宁,金连文,黄永帅,汤帜.表格识别技术研究进展[J].中国图象图形学报,2022,27(06):1898-1917.

[2]徐梁刚,杨恒,陈科羽,刘威,余江顺.基于对比度特征深度学习的图像表格识别[J].信息技术与信息化,2021(11):237-241.

[3]杨茜.基于视觉特征的多类型表单关键信息识别研究[D].北京交通大学,2021.DOI:10.26944/d.cnki.gbfju.2021.001691.

[4]熊雨点.基于深度学习的表单识别系统的研究与实现[D].武汉工程大学,2018.

[5]卞飞飞.基于深度学习的票据识别系统设计与实现[D].华中科技大学,2020.DOI:10.27157/d.cnki.ghzku.2020.001352.

[6]任多.面向金融业务的表单票据通用识别系统研究[D].北京邮电大学,2021.DOI:10.26969/d.cnki.gbydu.2021.001704.

[7]王绍婧.扭曲和可变长表单识别研究与系统实现[D].华东师范大学,2022.DOI:10.27149/d.cnki.ghdsu.2022.001839.

*本文暂不支持打印功能

monitor