文档详情

基于Doris湖仓一体分析系统在快手的实践-2024大数据大模型峰会.pdf

发布:2024-11-27约1.28万字共35页下载文档
文本预览下载声明

基于Doris湖仓一体分析系

统在快手的实践

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

演讲人:李振炜-快手-大数据架构师

DataFunCon#2024

Contents

目录

公司OLAP分析现状

湖仓一体分析系统架构

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

缓存系统

自动物化系统

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

公司OLAP分析现状

公司OLAP分析现状

在当下的信息时代,数据作为公司一种重要的资产,OLAP分析提炼数据价值,成

为公司决策的重要的依据,在公司内部使用非常广泛,每天的查询量接近10亿

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

公司OLAP分析现状

主要的分析引擎为ClickHouse,整体的分析加工链路如下:

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

公司OLAP分析现状

这套分析加工流程,虽然在公司内部成熟稳定运行,不过也面临很多的问题。

入仓代价比较大加工链路复杂

01数据入仓到CK,能提高查询性能,02为了提高查询性能,数据工程

但同时造成数据冗余存储,影响数师需要花大量的人力建立ADS

据就绪时间,花费精力维护导入任层模型,并进行toCK

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

务,数据导入占用CK集群资源

数据治理成本较大查询调优门槛高

03报表看板下线之后,对应的ADS04排序字段的选择,二级索引的建

层和toCK的任务还在一直运行,立,物化视图的建立,hash字

造成计算资源和存储资源的浪费,段的选择对查询性能影响比较大,

大部分需要人工进行沟通但同时门槛较高

公司OLAP分析现状

为了解决当前面临的一些问题,结合业界湖仓一体和数据编织等理念,我

们重构了当前的分析系统,打造了基于Doris湖仓一体分析系统,分析性能

“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。

达到原来数仓的能力,同时又

显示全部
相似文档