《二零一六中国系统架构师大会-微信服务保障实践-吴广武》.pdf
文本预览下载声明
微信服务保障实践
吴⼲武CADENWU
-
微信 运营系统负责⼈
微信
433天 8.1亿 6亿
监控报警
故障控制
监控什么?
业务
数据
业务问题多发的部分
功能逻辑
应用程序状态
传统监控的范围
服务器 和 网络
第⼀代监控
• PING CPU …
服务器 ( 、磁盘空间、负载、 使⽤率 )
• COREDUMP …
进程 (端⼝、 、异常重启 )
• 功能拨测
第⼀代监控
业务进程
logstat1 Stat DB1
Log
proxy
Monitor
pip logstat2 Stat DB2
log
e
…
…
…
Log
proxy
Logstat N Stat DB N
Agent
1、维护非常困难。
日志处理消耗大。 2、单点统计,存在瓶颈,报警延迟大。
第⼀代监控
• 速度慢
• 性能差
• 维护困难
IDKEY监控系统
特点
• 秒级监控
• 异常智能检测
• ⾃动定位
• ⾼可⽤
系统分层
数据采集
业务进程
转发队列 分钟级
园区1
显示全部