基于深度学习的表格检测与识别技术的优势

intsig 2023-03-28 原文

引言：

信息时代的高速发展导致数据的大量产生与频繁传输，单单依靠人力很难处理这些数据。依托于人工智能的兴起与发展，数据的利用变得更加高效。表格作为数据的一种重要载体，是人们为了让数据的组织形式更加标准和结构化而使用的一种数据类型。

表格的特点：

信息高度精炼集中，方便信息的检索和比较。表格被广泛用于表示结构和功能信息，它们出现在不同种类的文献中，包括报纸、研究论文和科学文件等。表格使读者能够快速地比较、分析和理解文件中出现的事实。表格识别的目的是获取图像中的表格并访问其数据，是文档分析与识别领域的一个重要分支。

表格在生成或存储过程中往往以图片或 PDF（Portable Document Format）文件的形式存在，会丢失易于计算机理解的原有结构信息。若是采用人工手段对表格进行重新处理录入，会面临效率低下、数据量大导致出错等问题。因此，如何高效地从文档或图像中找到表格区域，同时有效地提取表格中的结构信息和数据内容，成为了一个亟待解决的问题。

表格识别的发展历程：

早期对于表格的识别大多是针对比较简单或者模板化的表格。从表格的布局结构出发，抽取表格线条或抽取文本块，然后使用规则方法进行分析，但这些方法往往泛化能力较差，且难以处理复杂表格。后来随着深度学习的发展，无论是机器视觉方向还是自然语言处理方面都获得了巨大的进展，各种表格识别的方案被提出，并有研究者开始尝试对自然场景下的表格进行处理。

传统的机器学习方法可以实现表格识别和检测，但是它有一定的性能局限，特别是在解决复杂的表格识别和检测的技术要求上有一定的局限性。深度学习技术已经成为计算机视觉、自然语言处理等领域具有极高表现能力的新型机器学习方法，近年来，基于深度学习的表格识别与检测技术也受到了广泛关注，它可以提供较高的准确率和完整性，起到较好的优化解决方案。

表格识别与检测通常分为三个基本步骤：表格位置定位、单元格分割和内容提取。

基于深度学习的表格检测与识别，将多层神经网络应用到解决表格问题上，概括地说，

其特征在于几个方面：

（1）深度学习具有高精度和强大的表示能力，能够有效处理复杂的数据，如图像和自然语言。

（2）深度学习的特征通常是自动学习的，不需要人工标注信息，同时它能够准确地从不同的数据中学习新特征，能够更好地处理一些模糊，复杂和非线性的数据

（3）深度学习能够捕获表格的复杂结构信息，并能够从图像获得更多更有用的技术特征。

与传统的机器学习方法相比基于深度学习的表格检测识别有以下几点优势：

（1）数据集种类

基于机器学习的检测识别方法主要面向标注了表格位置的数据集，使用这类数据来训练模型，从而可以获得较高的检测识别精度；而基于深度学习的检测识别方法则面向标注了表格元素位置的数据集，这类数据可以更详细地描述文档中的表格，可以有效抵挡干扰。

（2）模型准确度

从模型准确度上来看，基于机器学习的表格检测识别方法主要依赖于模型的改进，因而能够在模型准确度上把控较高的水准，即使对于较小的数据集来说；而基于深度学习的表格检测识别方法则更加取决于数据的种类基于更加详细的数据描述，可以使模型的精度提升到更高的水准。

（3）数据探索

从数据探索的角度来看，基于机器学习的表格检测识别方法主要针对已有数据对模型进行训练，以提高检测识别的效率；而基于深度学习的检测识别方法则能够在完整的文本中探索出详细的表格信息，从而获取更多的有用技术特征。

（4）时间开销

从时间开销上来看，基于机器学习的表格检测识别方法常常比较容易受到训练数据和模型规模等因素的影响，而基于深度学习的表格检测识别方法则更加容易进行识别和检测，所需时间大大缩短。

对比结论：

1 因其可以解决数据量小、模型效果不理想等问题，基于机器学习的方法依赖于模型的提高.

2 而基于深度学习的方法可以提供完整的特征描述以及更强大的抗干扰能力，从而使检测识别的效果大大提升。

目前，基于深度学习的表格识别与检测技术已经在科研和实际应用方面取得了一定的成就，常见的表格检测和识别技术常常与基于深度学习的其他技术结合起来，进行系统设计。根据瞭望智库的数据，基于深度学习的表格检测与识别技术的市场规模目前已经从 2016 年的 46600 万美元增长到了 2018 年的 9800 万美元，其中，自然语言处理（NLP）、计算机视觉（CV）和图像处理等技术将有望引领下一步的增长动力。

作者认为，现今基于深度学习的表格检测与识别技术仍然处于有限，大龄化和繁杂之中。从技术质量角度讲，早期研究大多数临时性，难以涉及客观分析。然而，在过去几年中，随着技术的不断成熟，许多研究开发了和实现了各种深度学习模型，提高了表格检测与识别技术的准确性和有效性。在普适表格识别和检测中，深度学习算法是有利的，但它仍有挑战需要解决。未来研究可能集中在强化表格检测和深度学习的运行速度，应用表格检测到现实世界的任务，灵活的处理新表格，更多地考虑端到端方法以及学习式表格识别。

参考文献：

Kong L J, Bao Y C, Wang Q W and Li H K. 2021. Summary of table detection and recognition algorithms based on deep learning. Computer & Network,47(02):65-73

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

基于与 data-type data type 人工智能

有关基于深度学习的表格检测与识别技术的优势的更多相关文章

ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - Prawn - 表格单元格内的链接 - 2
我正在尝试用Prawn生成PDF。在我的PDF模板中，我有带单元格的表格。在其中一个单元格中，我有一个电子邮件地址:cell_email=pdf.make_cell(:content=>booking.user_email,:border_width=>0)我想让电子邮件链接到“mailto”链接。我知道我可以这样链接:pdf.formatted_text([{:text=>booking.user_email,:link=>"mailto:#{booking.user_email}"}])但是将这两行组合起来(将格式化文本作为内容)不起作用:cell_email=pdf.make_c
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
[Vuforia]二.3D物体识别 - 2
之前说过10之后的版本没有3dScan了，所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序，扫描现实中的三维物体，然后上传高通官网，在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载，是一个安卓程序。点到Tools往下滑，找到VuforiaObjectScanner下载后解压数据线连接手机，将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开，两个PDF图打印第一张A4-ObjectScanningTarget.pdf，主要是用来辅助扫描的。好了，接下来就是扫描三维物体。将瓶
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO