starrocks(张友东):Data Lakehouse:你的下一个数据仓库.pptx
数据技术嘉年华
智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展
DataTechnologyCarnival
DTC2024.4.12-13
中国数据库联盟
AllChinaDatabaseUnion
墨天轮
Lakehouse:你的下一个数据仓库
张友东镜舟科技CTO
StarRocksTSCMember
Data
Linux基金会开源项目
大型企业用户360+
GithubStar7600+
社区参与者15000+
基于StarRocks的商业化公司
StarRocks社区中国最大贡献者
镜舟
AboutStarRocks镜舟
StarRocks
实时分析、预测
预测性分析
数据分析:挖掘数据的价值
描述性分析探寻式分析
Ad-hoc查询
指导性分析
DataWarehouse
核心优势
●数据质量:经过ETL处理,结构化
·事务处理:支持更新与事务处理
·查询性能:针对查询优化组织数据
●数据治理:面向主题,易于治理
问题与挑战
·数据多样化
·数据孤岛问题
·成本与扩展性
·高级数据分析(AI)
DataSources
OperationalSystem
OperationalSystem
FlatFiles
DataMarts
Purchasing
Sales
Inventory
Users
Analytics
目
Reporting
Mining
StagingArea
ETL
Warehouse
Metadata
Summary
data
Rawdata
DTC2024
DataLake
核心优势
·统一
·Singlesourceoftruth
·低成本、可扩展
·开放
·不同应用灵活访问
·Openformat、灵活schema
问题与挑战
·数据分析性能
●数据管理与治理
DataWarehouse/Mart
DataLake
Ifyouthinkofadatamartasastoreofbottledwater-cleansedandpackagedandstructuredforeasyconsumption-thedatalakeisalargebodyofwaterinamorenaturalstate.
DataLake
核心优势
·数据统一入湖管理
·湖上数据按需导入数据仓库支持BI应用场景
·湖上数据同时支持AI应用场景
问题与挑战
·数据可靠性:两份数据口径不一致
●数据时效性:先入湖,再同步到数据仓库
·高级数据分析:数据仓库私有化格式
·总体成本:复杂的ETL、冗余的存储
湖仓分层架构
Structured,Semi-strucuredUnstructuredData
——DTC2024-
SnowflakeRedshiftBigquery
·云原生存算分离架构
·支持主流数据湖查询
Data
Lakehouse
ApacheIcebergApacheHudiDeltalake
·支持ACID等高级数据管理特性
·基于数据湖数据的分析技术提升
·Datalayout、Indexing、Caching
2020s
Teradata
Datawarehouse
Datalake
1980s
Hadoop-Hive
Hadoop数据湖
2010s
数据分析架构演进
DTC2024
Datasources
巨
Datalakehouse
Analytics
DTC2024
Data
applications
DataLakehouse
Onedata,allanalytics
BI
AI
Streaming
Batch
极速统一的湖仓新范式
存算分离架构十极速湖仓分析十物化视图
3.0:Evolution
Lakehouse
StarRocks
to
FE
CatalogManager
Coordinator
BE
ExecutionEngine
StorageEngine
LocalData
FE
CatalogManager
Coordinator
BE
ExecutionEngine
StorageEngine
Loca