starrocks(张友东):Data Lakehouse:你的下一个数据仓库.docx
墨天轮中国数据库联盟
墨天轮
AllChinaDatabaseUnion
DTC2024.4.12-13
数据技术嘉年华
智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展
DataTechnologyCarnival
DataLakehouse:你的下一个数据仓库
Data
张友东镜舟科技CTO
StarRocksTSCMember
AboutStarRocks镜舟
镜舟
基于StarRocks的商业化公司StarRocks社区中国最大贡献者
StarRocks
Linux基金会开源项目
大型企业用户360+
GithubStar7600+
社区参与者15000+
数据分析:挖掘数据的价值
Howtomakeithappen?用户画像、
Howtomakeithappen?
用户画像、ABTest
Whydidithappen?
实时分析、预测
Ad-hoc查询
Whathappend?
BI报表
描述性分析探寻式分析
描述性分析探寻式分析
指导性分析
DataWarehouse
DTC2024
StagingAreaDataMartsUsersDataSources
StagingArea
DataMarts
Users
DataSources
Warehouse
●数据质量:经过ETL处理,结构化
·事务处理:支持更新与事务处理
OperationalSystemPurchasingAnalytics·
OperationalSystem
Purchasing
Analytics
●数据治理:面向主题,易于治理
Metadata
ETL目ReportingSalesOperational
ETL
目
Reporting
Sales
OperationalSystem
SummarydataRawdata
Summary
data
Rawdata
·数据孤岛问题
·成本与扩展性
·高级数据分析(AI)
FlatFiles
MiningInventory
Mining
DataLake
核心优势
·统一
·Singlesourceoftruth
·低成本、可扩展
·开放
·不同应用灵活访问
·Openformat、灵活schema
问题与挑战
·数据分析性能
●数据管理与治理
DataLake
巨
巨
DataWarehouse/Mart
DataLake
Ifyouthinkofadatamartasastoreofbottledwater-cleansedandpackagedandstructuredforeasyconsumption-thedatalakeisalargebodyofwaterinamorenaturalstate.
湖仓分层架构
——DTC2024-
核心优势
·数据统一入湖管理
·湖上数据按需导入数据仓库支持BI应用场景
·湖上数据同时支持AI应用场景
问题与挑战
·数据可靠性:两份数据口径不一致
●数据时效性:先入湖,再同步到数据仓库
·高级数据分析:数据仓库私有化格式
·总体成本:复杂的ETL、冗余的存储
典
典
BIReportsAlML
DataWarehouse
ETL
DataLake
Structured,Semi-strucuredUnstructuredData
数据分析架构演进
DTC2024
TeradataHadoop-HiveSnowflakeRedshiftBigquery
Teradata
Hadoop-Hive
·云原生存算分离架构
·支持主流数据湖查询
Datawarehouse
Data
Lakehouse
Datalake
Hadoop数据湖ApacheIceberg
Hadoop数据湖
·支持ACID等高级数据管理特性
·基于数据湖数据的分析技术提升
·Datalayout、Indexing、Caching
2010s1980s2020s
2010s
1980s
DataLakeh