文档详情

starrocks(张友东):Data Lakehouse:你的下一个数据仓库.docx

发布:2025-05-06约6.66千字共35页下载文档
文本预览下载声明

墨天轮中国数据库联盟

墨天轮

AllChinaDatabaseUnion

DTC2024.4.12-13

数据技术嘉年华

智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展

DataTechnologyCarnival

DataLakehouse:你的下一个数据仓库

Data

张友东镜舟科技CTO

StarRocksTSCMember

AboutStarRocks镜舟

镜舟

基于StarRocks的商业化公司StarRocks社区中国最大贡献者

StarRocks

Linux基金会开源项目

大型企业用户360+

GithubStar7600+

社区参与者15000+

数据分析:挖掘数据的价值

Howtomakeithappen?用户画像、

Howtomakeithappen?

用户画像、ABTest

Whydidithappen?

实时分析、预测

Ad-hoc查询

Whathappend?

BI报表

描述性分析探寻式分析

描述性分析探寻式分析

指导性分析

DataWarehouse

DTC2024

StagingAreaDataMartsUsersDataSources

StagingArea

DataMarts

Users

DataSources

Warehouse

●数据质量:经过ETL处理,结构化

·事务处理:支持更新与事务处理

OperationalSystemPurchasingAnalytics·

OperationalSystem

Purchasing

Analytics

●数据治理:面向主题,易于治理

Metadata

ETL目ReportingSalesOperational

ETL

Reporting

Sales

OperationalSystem

SummarydataRawdata

Summary

data

Rawdata

·数据孤岛问题

·成本与扩展性

·高级数据分析(AI)

FlatFiles

MiningInventory

Mining

DataLake

核心优势

·统一

·Singlesourceoftruth

·低成本、可扩展

·开放

·不同应用灵活访问

·Openformat、灵活schema

问题与挑战

·数据分析性能

●数据管理与治理

DataLake

DataWarehouse/Mart

DataLake

Ifyouthinkofadatamartasastoreofbottledwater-cleansedandpackagedandstructuredforeasyconsumption-thedatalakeisalargebodyofwaterinamorenaturalstate.

湖仓分层架构

——DTC2024-

核心优势

·数据统一入湖管理

·湖上数据按需导入数据仓库支持BI应用场景

·湖上数据同时支持AI应用场景

问题与挑战

·数据可靠性:两份数据口径不一致

●数据时效性:先入湖,再同步到数据仓库

·高级数据分析:数据仓库私有化格式

·总体成本:复杂的ETL、冗余的存储

BIReportsAlML

DataWarehouse

ETL

DataLake

Structured,Semi-strucuredUnstructuredData

数据分析架构演进

DTC2024

TeradataHadoop-HiveSnowflakeRedshiftBigquery

Teradata

Hadoop-Hive

·云原生存算分离架构

·支持主流数据湖查询

Datawarehouse

Data

Lakehouse

Datalake

Hadoop数据湖ApacheIceberg

Hadoop数据湖

·支持ACID等高级数据管理特性

·基于数据湖数据的分析技术提升

·Datalayout、Indexing、Caching

2010s1980s2020s

2010s

1980s

DataLakeh

显示全部
相似文档