Databend(吴炳锡):数据汇聚平台建设及挑战.pptx
数据汇聚平台建设及挑战
DtabendLabs吴炳锡
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对
Databend建设数据汇聚平台整体架构
在汇聚平台上构建数据集市
▶
▶
▶
▶
数据汇聚平台的背景及挑战
数据汇聚平台的背景
实时数据报表
即度查询
跑批
补数数据
任务监控
任务调度
跑批
自助查询
HDFS
/OSS
/IceBerg
/Hudi
业务端A
业务端B
...
MySQL统计库
Hive
Mr+Spark
Maxwell
Clickhouse
Flume/fluentd
MySQL统计库
Presto
客户端
sqoop
Kafka
Nginx日志
Redis
实时上报接口
Maxwell
MySQL
Clickhouse/GreenPlum
ES
Hudi/Icebreg/Paimon
Trino/Implala
各种大模型
数据汇聚平台的背景及挑战
数据汇聚平台的背景及挑战
当前的挑战
数据搬家数据核对清洗数据
存储扩容数据重分布
分区设计(有技术)
工作内容
重启服务
数据归档
算力扩容
IT基础架构的进化,也会出现新的产品进化,让生活变的更美好
数据汇聚平台的背景及挑战
我们需要的
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对
Databend建设数据汇聚平台整体架构
在汇聚平台上构建数据集市
▶
▶
▶
▶
•向量化计算,提升单机计算性能和集群能力
•存储、计算分离思想,提升分布式计算能力,支持Multicluster模式
•借鉴Git,MVCC列式存储引擎,支持事务及数据回溯
•全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议
•基于便宜的对象存储也能方便的做实时性分析
•内置Stream(CDC)+Task实现内置流批一体化方案
•完全使用Rust研发,代码自主可控
•高弹性+强分布式,致力于解决大数据分析成本和复杂度问题
Databend=ClickHouse+Snowflake+Rust
新一代湖仓Databend如何应对
•应用系统产生ndjosn,parquet,csv
•利用OpenDAL直接写入对象存储
•使用对象存储替换消息队列
•Databend通过stage加载,每秒可以实现百级行的数据加载
Databend内置:
1.数据批量,并行装载
2.完善的数据处理过程
3.功能上:Bitmap类型及函数(留存)漏斗函数
新一代湖仓Databend如何应对
支持数据秒级写入(游戏/广告业务)
利用bucket做队列OpenDal
应用系统
Databend
bucket
S3
新一代湖仓Databend如何应对
Files
CSV/JSON/XML...
SaaSApplicationsRESTAPIs
ApplicationEventsWebhook
Databases
RDBMS/NoSQL
流计算方案
ExtractLoad
DATAWAREHOUSE
ANALYTICS
Transform
Analyze
Transform
ETL
ELT(Databend)
定议
从数据源抽取,利用一个或是多个服务处理完数据,加到目标库中使用
从数据源抽取,加载到目标库中转化及处理
Extract
利用程序去抽取
利用程序去抽取
Transform
结合消息队列+程序做相应的转换
在Databend中利用SQL处理原始数据,在Databend中处理
Load
处理好的数据加载到目标中
支持:csv,tsv,json,parquet直接加载
原始数据直接加载到Databend中
数据输出
需要抽取工具
支持unload出来:csv,tsv,json,parquet
Speed
依赖转换程序的多少,一个Clickhouse环境:120台+的转换程序,50台左右的Clickhouse
并行加载,压缩,并行处理
成本
多个服务,更高的成本
结构单一,低成本
技术栈
kafka,spark,flink,zookeeper多数据数据文件解析,任务调度,数据加工,大量开发工作
只有一个Databend,SQL是唯一的接口语言,了解S3
新一代湖仓Databen