archsummit北京2015-《新浪微博高可用服务保障体系演进》-李庆丰.pdf
文本预览下载声明
ArchSummit全球架构师峰会北京站2015
新浪微博高可用服务保障体系演进
新浪微博高级技术经理 李庆丰
内容大纲
• 新浪微博服务保障面临的挑战
• 伴随着业务发展,高可用服务保障体系的演进过程
起步阶段-纯手工
快速成长-工具化、系统化
稳定发展-异地容灾与多机房
弹性调度时代-容器化及混合云
• 分享与探讨:如何保障高可用及高效运维
服务保障的挑战
服务保障的挑战
运维复杂度与机器数量、服务模块数量正相关
服务保障的挑战
微博DAU 功能模块数量 机器数量
10000W + 2015 百个+ 万台+
6100W+ 2013 几十个 几千台
3600W+ 2012 十几个 几百台
2010
起步 2009 几个 几十台
服务保障的挑战
用户 业务量 系统 运维 SLA
用户:10亿 日志:百T + 设备:万+ 服务扩缩容 99.99%
DAU:1亿 接口:600亿 服务:百+ 5min/百台 100ms
不断演进的高可用保障体系
演进
演进:起步阶段
时间:2009-2010
设备:几十台-几百台
服务:几个-十几个
业务:迭代需求强
运维:多次变更发布/天
演进:起步阶段 -纯手工
产品迭代 代码bug 发布变更
快 多 频繁
CMD命令搞定一切
演进:起步阶段案例 :10次上线的一天
新功能
上线 Bug
回滚再上线 回滚再上线
新功能
Bug 上线
演进:起步阶段案例 -第一个工具系统
Jpool发布系统
svn:url https://…...
varnish
IPs 0,1
Result 0 is ok
显示全部