文档详情

基于向量数据库构建高质量RAG应用.pptx

发布:2024-08-02约3.59千字共26页下载文档
文本预览下载声明

基于向量数据库构建高质量RAG应用腾讯云向量数据库产品经理陈薏竹

向量数据库是一种专门处理非结构化数据(文本、图片、音频...)检索的数据库,和传统数据库的主要区别再于主要存储向量数据,并提供向量相似性检索。什么是向量数据库?

数据预处理模型训练/推理模型应??模型/AI训练企业AI应?企业(电商、教育、游戏、金融、SaaS…)数据清洗数据去重LLM搜索增强模型微调(Fine-tune)企业知识库搜索/推荐智能客服审核流游戏NPC图片/音频识别向量数据库外部知识库为LLM补充实时知识、私域知识RAG应用的必备组件训练数据存储外部知识库海量数据存储、?性能检索超越行业平均水平的检索性能千亿数据规模支持,满足数据增长需求向量数据库应用场景覆盖AI全生命周期

180016001400120010008006004002000源自腾讯集团自研向量检索引擎OLAMA,自2019年上线至今,经过5年打磨,集团内部已有40+业务线上使用,覆盖搜索、推荐、AI场景,日均处理1600亿次检索请求OLAMA向量引擎日检索量(亿次/天)2019/9/12019/11/12020/1/12020/3/12020/5/12020/7/12020/9/12020/11/12021/1/12021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12019年PineconeMilvus腾讯OLAMA2021年QdrantChroma公司成立向量数据库发展历程2023年腾讯云向量数据库正式对外发布2017年Facebook开源Faiss腾讯云向量数据库:源自集团多年沉淀,产品能力领先

LLM的局限:大模型幻觉垂直领域效果数据安全WhyRAG(Retrieval-AugmentedGeneration)?在过去几乎无法完成没有RAG很难做到WhyRAG?LLM+向量数据库

?件解析知识切?成Chunk向量化Chunk?库Query检索知识Chunk构建Prompts调?LLM?成回答主要步骤WhatisRAG?

?门60%期望90%初级35%整体效果=文档处理效果*Embedding效果*Retrieval效果*LLM效果文档处理Embedding索引构建和召回LLM如何保证文件解析的效果?如何合理地切分Chunk?如何处理不同格式的文档?如何选择Embedding模型?如何Fine-tune?运用Embedding最佳实践?如何选择索引和参数?多路召回RerankPromptsQuery增强改写Query意图识别和路由话题切换Fine-tune如何提升RAG应用的效果

MdPDFWordPPTHTMLtxtVectorDBAI套件知识检索和问答服务内容清洗内容增强解析和优化Embedding优化Retrieval优化正确的知识文档腾讯云向量数据库AI套件

?业OCR的识别度普遍在70%以下文本解析:传统OCR工程难以处理长尾问题

文档内容质量将很大程度影响最终效果内容不完整文档整体内容被截断文档页内部分内容丢失文档格式Markdown/Text/JSONPDF/Word/PPTImage/CAD/Vieo/Audio内容错误同页表格/文本/代码混合同页不同段落格式不标准解析问题边界场景跨页、双栏PDF跨栏表格合并单元格、代码块..复杂文档格式-解析过程中的问题

标准格式论文双栏格式跨页表格离散文本块小说格式复杂多变的文档格式,提高解析效果十分困难PDF格式的多样性

PDF文档拆分为单页PDF筛选样本页PDF类型初始化边距/间距单页内切割区域区域类型判断分析段落和主题解析文本表格处理(合并单元格)跨页/跨栏拆分ChunkEmbeding入库VDB复杂文档格式(PDF解析)-解决流程

PDF内容样例VDB解析后正确获取主题+段落开源解析-标题格式无法判断解析效果比对1(格式识别)

PDF内容样例VDB解析后正确解析每一行结果开源解析-表格的格式丢失解析效果比对2(表格识别)

PDF内容样例VDB解析-将跨页相同主题下的内容合并在一起开源解析-跨页内容很难判断相同主题下连续内容解析效果比对3(跨页主题内容合并)

PDF内容样例VDB解析-复制单元格达到相同语义开源解析-合并单元格信息丢失解析效果比对4(合并单元格)

为什么解析文档后需要做知识片段拆分Token限制绝大部分开源限制=512Tokensbge_base、e5_large、m3e_base、text2vector_large_chinese、multili

显示全部
相似文档