文档详情

阿里hadoop集群架构及服务体系.pdf

发布:2016-01-15约1.2万字共29页下载文档
文本预览下载声明
阿里Hadoop集群架构及 服务体系 梁李印(无影) 阿里巴巴集团-海量数据 大纲 1. 集群发展现状 2. 集群服务模式及挑战 3. Hadoop版本特性 4. 集群用户门户 5. 集群核心业务架构(三淘) Alibaba confidential 集群发展现状 规模 3000 3000 2500 2000 2000 1500 集群规模(台) 1000 1000 700 500 200 0 2009.4 2010.3 2010.7 2012.1 2012.10 上线 集群迁 Oracle RAC基 服务扩展 迎战11.11 移机房 本迁移完成 至全集团 Alibaba confidential 集群发展现状 容量与负载 • 集群容量 • 集群负载 – 约3200台服务器 – 每天Job数 150,000+道 – 物理CPU ~30000核 – 每天hive query数 6,000+ – 每天扫描数据量 ~7.5PB – 内存 ~100TB – 每天扫描文件数 ~4亿 – 磁盘 ~36000块 – 存储利用率 ~80% – 存储容量 ~60PB – CPU利用率~65% 峰值80% Alibaba confidential 集群发展现状 业务 • 150+集群用户组 • 4,500+集群用户 淘宝 一淘 • 阿里的“水电煤”服务 天猫 聚划算 CBU 支付宝 HDFS MapReduce 云梯Hadoop集群 Alibaba confidential 集群服务模式 分组管理
显示全部
相似文档