基于ByteHouse OLAP架构如何实现⾼性能向量检索-2024大数据大模型峰会.pdf
基于ByteHouseOLAP架
构如何实现⾼性能向量检索
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
⽕⼭引擎ByteHouse团队/彭信东
DataFunCon#2024
Contents
⽬录
向量检索概念及场景性能与资源使⽤优化
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
ByteHouse向量检索实现性能评测及未来⼯作
Contents
⽬录
向量检索概念及场景性能与资源使⽤优化
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
ByteHouse向量检索实现性能评测及未来⼯作
什么是向量检索
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
⼤模型
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
企业级⼤模型问答系统
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•
向量检索案例
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
向量检索的本质
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
向量检索索引
•Table-based
•LSH
•Tree-based
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•KD-Tree,Annoy
•Cluster-based
•IVF,SCANN,SPANN
•Graph-based
•HNSW,NSG,DiskANN
Cluster-based:IVFFlat
•聚类训练
•优点:
•构建速度快“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•额外内存占⽤少
•缺点
•查询速度受维度信息
影响较⼤
•⾼精度查询计算量较⼤
Graph-based:HNSW
•构建图结构
•优点
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•查询速度快,并发性能好
•缺点
•构建速度慢,内存占⽤⾼
向量数据库overview
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•
向量数据库分类
•专⽤向量数据库
•Vector-c