基于Doris湖仓一体分析系统在快手的实践-2024大数据大模型峰会.pdf
基于Doris湖仓一体分析系
统在快手的实践
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
演讲人:李振炜-快手-大数据架构师
DataFunCon#2024
Contents
目录
公司OLAP分析现状
湖仓一体分析系统架构
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
缓存系统
自动物化系统
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
公司OLAP分析现状
公司OLAP分析现状
在当下的信息时代,数据作为公司一种重要的资产,OLAP分析提炼数据价值,成
为公司决策的重要的依据,在公司内部使用非常广泛,每天的查询量接近10亿
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
公司OLAP分析现状
主要的分析引擎为ClickHouse,整体的分析加工链路如下:
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
公司OLAP分析现状
这套分析加工流程,虽然在公司内部成熟稳定运行,不过也面临很多的问题。
入仓代价比较大加工链路复杂
01数据入仓到CK,能提高查询性能,02为了提高查询性能,数据工程
但同时造成数据冗余存储,影响数师需要花大量的人力建立ADS
据就绪时间,花费精力维护导入任层模型,并进行toCK
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
务,数据导入占用CK集群资源
数据治理成本较大查询调优门槛高
03报表看板下线之后,对应的ADS04排序字段的选择,二级索引的建
层和toCK的任务还在一直运行,立,物化视图的建立,hash字
造成计算资源和存储资源的浪费,段的选择对查询性能影响比较大,
大部分需要人工进行沟通但同时门槛较高
公司OLAP分析现状
为了解决当前面临的一些问题,结合业界湖仓一体和数据编织等理念,我
们重构了当前的分析系统,打造了基于Doris湖仓一体分析系统,分析性能
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
达到原来数仓的能力,同时又