文档详情

大模型面试题-17-大模型（LLMs）RAG 版面分析——表格识别方法篇.pdf

发布：2025-04-11约6.03千字共5页下载文档

文本预览下载声明

大模型（LLMs）RAG版面分析——表格识别方法篇

来自：AiGC面试宝典

宁静致远2024年03月19日22:30

•大模型（LLMs）RAG版面分析——表格识别方法篇

•一、为什么需要识别表格？

•二、介绍一下表格识别任务？

•三、有哪些表格识别方法？

•3.1传统方法

•3.2pdfplumber表格抽取

•3.2.1pdfplumber如何进行表格抽取？

•3.2.2pdfplumber常见的表格抽取模式？

•3.3深度学习方法-语义分割

•3.3.1table-ocr/table-detect：票据图片复杂表格框识别(票据单元格切割)

•3.3.2腾讯表格图像识别

•3.3.3TableNet

•3.3.4CascadeTabNet

•3.3.5SPLERGE

•3.3.6DeepDeSRT

•致谢

一、为什么需要识别表格？

表格的尺寸、类型和样式展现出多样化的特征，如背景填充的差异性、行列合并方法的多样性以及

内容文本类型的不一致性等。同时，现有的文档资料不仅涵盖了现代电子文档，也包括历史的手写

扫描文档，这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此，表格识别一

直是文档识别领域的重大挑战。下图所示为一个示例：

注：左上：有颜色背景的全线表，右上：少线表，左中：无线表，左下：有复杂表格线条样式的

表格，右下：拍照得到的手写历史文档。

二、介绍一下表格识别任务？

表格识别包括表格检测和表格结构识别两个子任务。

表格识别过程可细分为两个关键步骤：

•表格定位（TableLocalization）：此阶段涉及识别并划定表格的整体边界，采用的技术手段包

括但不限于目标检测算法，如YOLO、FasterRCNN或MaskRCNN，甚至有时借助生成对抗网

络（GAN）来精确勾勒出表格的外在轮廓。

•表格元素解析与结构重建（TableElementParsingandStructureReconstruction）：

•表格单元格划分（CellDetection）：这一子任务着重于识别和区分表格内部的各个单

元格，不论它们是由连续线条完全包围还是部分包围，抑或是无明显线条分隔。

•表格结构理解（TableStructureUnderstanding）：在此环节中，系统深入分析表格区

域以提取其中的数据内容及其内在逻辑关系，明确行与列的分布规律以及单元格之间的

层次关联，最终实现对表格原始结构的高度准确复原。

三、有哪些表格识别方法？

3.1传统方法

利用规则指导和图像处理技术，执行如下步骤以识别结构：

1.应用腐蚀与膨胀算法来细化和增强目标区域边界特征。

2.通过分析像素连通性，确定并标记图像中的各个显著区域。

3.实施线段检测和直线拟合技术，精确描绘出图像内的线性结构元素。

4.计算这些线性结构之间的交点，以此构建可能的边框或连接关系网络。

5.合并初步检测到的边界框（猜测框），运用智能合并策略减少冗余并提高精度。

6.根据尺寸筛选优化，剔除不符合预期大小条件的候选区域，从而获得更为准确的目标识别结

果。

3.2pdfplumber表格抽取

参考：/jsvine/pdfplumber#extracting-tables

3.2.1pdfplumber如何进行表格抽取？

1.因为表格及单元格都是存在边界的（由可见或不可见的线表示），所以第一步，pdfplumber是

找到可见的或猜测出不可见的候选表格线。

2.因为表格以及单元格基本上都是定义在一块矩形区域内，所以第二步，pdfplumber是根据候选

的表格线确定它们的交点。根

显示全部

相似文档