文档详情

Databend(吴炳锡):数据汇聚平台建设及挑战.pptx

发布:2025-05-05约4.04千字共10页下载文档
文本预览下载声明

数据汇聚平台建设及挑战

DtabendLabs吴炳锡

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对

Databend建设数据汇聚平台整体架构

在汇聚平台上构建数据集市

数据汇聚平台的背景及挑战

数据汇聚平台的背景

实时数据报表

即度查询

跑批

补数数据

任务监控

任务调度

跑批

自助查询

HDFS

/OSS

/IceBerg

/Hudi

业务端A

业务端B

...

MySQL统计库

Hive

Mr+Spark

Maxwell

Clickhouse

Flume/fluentd

MySQL统计库

Presto

客户端

sqoop

Kafka

Nginx日志

Redis

实时上报接口

Maxwell

MySQL

Clickhouse/GreenPlum

ES

Hudi/Icebreg/Paimon

Trino/Implala

各种大模型

数据汇聚平台的背景及挑战

数据汇聚平台的背景及挑战

当前的挑战

数据搬家数据核对清洗数据

存储扩容数据重分布

分区设计(有技术)

工作内容

重启服务

数据归档

算力扩容

IT基础架构的进化,也会出现新的产品进化,让生活变的更美好

数据汇聚平台的背景及挑战

我们需要的

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对

Databend建设数据汇聚平台整体架构

在汇聚平台上构建数据集市

•向量化计算,提升单机计算性能和集群能力

•存储、计算分离思想,提升分布式计算能力,支持Multicluster模式

•借鉴Git,MVCC列式存储引擎,支持事务及数据回溯

•全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议

•基于便宜的对象存储也能方便的做实时性分析

•内置Stream(CDC)+Task实现内置流批一体化方案

•完全使用Rust研发,代码自主可控

•高弹性+强分布式,致力于解决大数据分析成本和复杂度问题

Databend=ClickHouse+Snowflake+Rust

新一代湖仓Databend如何应对

•应用系统产生ndjosn,parquet,csv

•利用OpenDAL直接写入对象存储

•使用对象存储替换消息队列

•Databend通过stage加载,每秒可以实现百级行的数据加载

Databend内置:

1.数据批量,并行装载

2.完善的数据处理过程

3.功能上:Bitmap类型及函数(留存)漏斗函数

新一代湖仓Databend如何应对

支持数据秒级写入(游戏/广告业务)

利用bucket做队列OpenDal

应用系统

Databend

bucket

S3

新一代湖仓Databend如何应对

Files

CSV/JSON/XML...

SaaSApplicationsRESTAPIs

ApplicationEventsWebhook

Databases

RDBMS/NoSQL

流计算方案

ExtractLoad

DATAWAREHOUSE

ANALYTICS

Transform

Analyze

Transform

ETL

ELT(Databend)

定议

从数据源抽取,利用一个或是多个服务处理完数据,加到目标库中使用

从数据源抽取,加载到目标库中转化及处理

Extract

利用程序去抽取

利用程序去抽取

Transform

结合消息队列+程序做相应的转换

在Databend中利用SQL处理原始数据,在Databend中处理

Load

处理好的数据加载到目标中

支持:csv,tsv,json,parquet直接加载

原始数据直接加载到Databend中

数据输出

需要抽取工具

支持unload出来:csv,tsv,json,parquet

Speed

依赖转换程序的多少,一个Clickhouse环境:120台+的转换程序,50台左右的Clickhouse

并行加载,压缩,并行处理

成本

多个服务,更高的成本

结构单一,低成本

技术栈

kafka,spark,flink,zookeeper多数据数据文件解析,任务调度,数据加工,大量开发工作

只有一个Databend,SQL是唯一的接口语言,了解S3

新一代湖仓Databen

显示全部
相似文档