大模型面试题-17-大模型(LLMs)RAG 版面分析——表格识别方法篇.pdf
大模型(LLMs)RAG版面分析——表格识别方法篇
来自:AiGC面试宝典
宁静致远2024年03月19日22:30
•大模型(LLMs)RAG版面分析——表格识别方法篇
•一、为什么需要识别表格?
•二、介绍一下表格识别任务?
•三、有哪些表格识别方法?
•3.1传统方法
•3.2pdfplumber表格抽取
•3.2.1pdfplumber如何进行表格抽取?
•3.2.2pdfplumber常见的表格抽取模式?
•3.3深度学习方法-语义分割
•3.3.1table-ocr/table-detect:票据图片复杂表格框识别(票据单元格切割)
•3.3.2腾讯表格图像识别
•3.3.3TableNet
•3.3.4CascadeTabNet
•3.3.5SPLERGE
•3.3.6DeepDeSRT
•致谢
一、为什么需要识别表格?
表格的尺寸、类型和样式展现出多样化的特征,如背景填充的差异性、行列合并方法的多样性以及
内容文本类型的不一致性等。同时,现有的文档资料不仅涵盖了现代电子文档,也包括历史的手写
扫描文档,这些文档在样式设计、光照条件以及纹理特性等方面存在显著差异。因此,表格识别一
直是文档识别领域的重大挑战。下图所示为一个示例:
注:左上:有颜色背景的全线表,右上:少线表,左中:无线表,左下:有复杂表格线条样式的
表格,右下:拍照得到的手写历史文档。
二、介绍一下表格识别任务?
表格识别包括表格检测和表格结构识别两个子任务。
表格识别过程可细分为两个关键步骤:
•表格定位(TableLocalization):此阶段涉及识别并划定表格的整体边界,采用的技术手段包
括但不限于目标检测算法,如YOLO、FasterRCNN或MaskRCNN,甚至有时借助生成对抗网
络(GAN)来精确勾勒出表格的外在轮廓。
•表格元素解析与结构重建(TableElementParsingandStructureReconstruction):
•表格单元格划分(CellDetection):这一子任务着重于识别和区分表格内部的各个单
元格,不论它们是由连续线条完全包围还是部分包围,抑或是无明显线条分隔。
•表格结构理解(TableStructureUnderstanding):在此环节中,系统深入分析表格区
域以提取其中的数据内容及其内在逻辑关系,明确行与列的分布规律以及单元格之间的
层次关联,最终实现对表格原始结构的高度准确复原。
三、有哪些表格识别方法?
3.1传统方法
利用规则指导和图像处理技术,执行如下步骤以识别结构:
1.应用腐蚀与膨胀算法来细化和增强目标区域边界特征。
2.通过分析像素连通性,确定并标记图像中的各个显著区域。
3.实施线段检测和直线拟合技术,精确描绘出图像内的线性结构元素。
4.计算这些线性结构之间的交点,以此构建可能的边框或连接关系网络。
5.合并初步检测到的边界框(猜测框),运用智能合并策略减少冗余并提高精度。
6.根据尺寸筛选优化,剔除不符合预期大小条件的候选区域,从而获得更为准确的目标识别结
果。
3.2pdfplumber表格抽取
参考:/jsvine/pdfplumber#extracting-tables
3.2.1pdfplumber如何进行表格抽取?
1.因为表格及单元格都是存在边界的(由可见或不可见的线表示),所以第一步,pdfplumber是
找到可见的或猜测出不可见的候选表格线。
2.因为表格以及单元格基本上都是定义在一块矩形区域内,所以第二步,pdfplumber是根据候选
的表格线确定它们的交点。根