阿里hadoop集群架构及服务体系.pdf
文本预览下载声明
阿里Hadoop集群架构及
服务体系
梁李印(无影)
阿里巴巴集团-海量数据
大纲
1. 集群发展现状
2. 集群服务模式及挑战
3. Hadoop版本特性
4. 集群用户门户
5. 集群核心业务架构(三淘)
Alibaba confidential
集群发展现状 规模
3000
3000
2500
2000
2000
1500 集群规模(台)
1000
1000 700
500 200
0
2009.4 2010.3 2010.7 2012.1 2012.10
上线 集群迁 Oracle RAC基 服务扩展
迎战11.11
移机房 本迁移完成 至全集团
Alibaba confidential
集群发展现状 容量与负载
• 集群容量 • 集群负载
– 约3200台服务器 – 每天Job数 150,000+道
– 物理CPU ~30000核 – 每天hive query数 6,000+
– 每天扫描数据量 ~7.5PB
– 内存 ~100TB
– 每天扫描文件数 ~4亿
– 磁盘 ~36000块
– 存储利用率 ~80%
– 存储容量 ~60PB
– CPU利用率~65% 峰值80%
Alibaba confidential
集群发展现状 业务
• 150+集群用户组
• 4,500+集群用户 淘宝
一淘
• 阿里的“水电煤”服务 天猫
聚划算
CBU
支付宝 HDFS MapReduce
云梯Hadoop集群
Alibaba confidential
集群服务模式 分组管理
显示全部