文档详情

大模型面试题-17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf

发布:2025-04-11约6.03千字共5页下载文档
文本预览下载声明

大模型(LLMs)RAG版面分析——表格识别方法篇

来自:AiGC面试宝典

宁静致远2024年03月19日22:30

•大模型(LLMs)RAG版面分析——表格识别方法篇

•一、为什么需要识别表格?

•二、介绍一下表格识别任务?

•三、有哪些表格识别方法?

•3.1传统方法

•3.2pdfplumber表格抽取

•3.2.1pdfplumber如何进行表格抽取?

•3.2.2pdfplumber常见的表格抽取模式?

•3.3深度学习方法-语义分割

•3.3.1table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)

•3.3.2腾讯表格图像识别

•3.3.3TableNet

•3.3.4CascadeTabNet

•3.3.5SPLERGE

•3.3.6DeepDeSRT

•致谢

一、为什么需要识别表格?

表格的尺寸、类型和样式展现出多样化的特征,如背景填充的差异性、行列合并方法的多样性以及

内容文本类型的不一致性等。同时,现有的文档资料不仅涵盖了现代电子文档,也包括历史的手写

扫描文档,这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此,表格识别一

直是文档识别领域的重大挑战。下图所示为一个示例:

注:左上:有颜色背景的全线表,右上:少线表,左中:无线表,左下:有复杂表格线条样式的

表格,右下:拍照得到的手写历史文档。

二、介绍一下表格识别任务?

表格识别包括表格检测和表格结构识别两个子任务。

表格识别过程可细分为两个关键步骤:

•表格定位(TableLocalization):此阶段涉及识别并划定表格的整体边界,采用的技术手段包

括但不限于目标检测算法,如YOLO、FasterRCNN或MaskRCNN,甚至有时借助生成对抗网

络(GAN)来精确勾勒出表格的外在轮廓。

•表格元素解析与结构重建(TableElementParsingandStructureReconstruction):

•表格单元格划分(CellDetection):这一子任务着重于识别和区分表格内部的各个单

元格,不论它们是由连续线条完全包围还是部分包围,抑或是无明显线条分隔。

•表格结构理解(TableStructureUnderstanding):在此环节中,系统深入分析表格区

域以提取其中的数据内容及其内在逻辑关系,明确行与列的分布规律以及单元格之间的

层次关联,最终实现对表格原始结构的高度准确复原。

三、有哪些表格识别方法?

3.1传统方法

利用规则指导和图像处理技术,执行如下步骤以识别结构:

1.应用腐蚀与膨胀算法来细化和增强目标区域边界特征。

2.通过分析像素连通性,确定并标记图像中的各个显著区域。

3.实施线段检测和直线拟合技术,精确描绘出图像内的线性结构元素。

4.计算这些线性结构之间的交点,以此构建可能的边框或连接关系网络。

5.合并初步检测到的边界框(猜测框),运用智能合并策略减少冗余并提高精度。

6.根据尺寸筛选优化,剔除不符合预期大小条件的候选区域,从而获得更为准确的目标识别结

果。

3.2pdfplumber表格抽取

参考:/jsvine/pdfplumber#extracting-tables

3.2.1pdfplumber如何进行表格抽取?

1.因为表格及单元格都是存在边界的(由可见或不可见的线表示),所以第一步,pdfplumber是

找到可见的或猜测出不可见的候选表格线。

2.因为表格以及单元格基本上都是定义在一块矩形区域内,所以第二步,pdfplumber是根据候选

的表格线确定它们的交点。根

显示全部
相似文档