archsummit北京2015-《让数据川流不息——阿里云数据传输服务揭秘》-程实(时勤).pdf
文本预览下载声明
让数据串流不息
阿里数据传输服务揭秘
程实(时勤) @ 阿里巴巴
2015-12-19
DT时代——利用数据
• 生产数据不再是难题
• 利用数据产生价值,才是关键
• 实时分析(实时商业决策、搜索、安全审计)
• 典型案例:数据从DB实时同步到Storm,要求低延时
• 离线分析 (大数据分析)
• 典型案例:数据从DB周期性导入到Hadoop,要求高吞吐率
• 异地容灾,异地读写
• 典型案例:云数据库多地容灾,本地读写
• 传统数据服务架构,对于利用数据并不友好
DT时代——增量数据服务化
• 业界已有的一些方案
• 统一的OLTP和OLAP
• Databases on Hadoop
• SAP Hana
• 分布式DB:异地问题
• 迁移工具
• 业务同时写入到多个DB/平台
• 增量数据必须服务化
• 降低DB查询压力
• 降低业务方开发难度和耦合性
• 多种DB统一服务
• 多种下游统一服务
• 支持异地多活架构
DT时代——阿里内部案例
• 淘宝核心交易库
• 双十一数据量
• 全天同步总量:百TB级别(全网6倍)
• 高峰增量流量:Gbps级别
• 增量消费的下游
• 5个实时下游业务
• 实时媒体大屏
• 实时商业分析
• 实时搜索
• 实时备份
• 1个离线分析平台
• 含多个子任务
• 2个异地实时备份链路 (异地多活)
• 上海到杭州
• 上海到深圳
DRC和DTS
• DRC——增量同步基础设施
• 增量抓取和存储
• 增量同步和订阅
• DRC在阿里广泛使用
• DTS——云上传输数据服务
• 上云数据迁移
• 云内外混合部署
• 跨地域部署
• 订阅服务
DRC模块构成
• 模块构成
• Reader:抓取日志
• Queue:存储
• Client:订阅SDK
• Writer:同步到DB
• CM:集群管理
• RM:自动化接入
• Console:运维控制台
• DaBai:全链路监控大屏
DRC抓取日志(Reader )
• 不同类型DB采用不同Reader设计
• MySQL(5.1+):基于mysqld主备同步机制
• Oracle:解析AchieveLog (非实时)和RedoLog (实时)
• OceanBase:提供日志服务
• Hbase:解析HLog
DRC的队列存储(Queue )
• DRC Queue队列存储
• 高性能
• 实时读写28万rps,读历史90万rps
• 支持1K连接并发读
• 压缩持久化
• 压缩率30%
• 缓存和预读
• 位点/时间索引
• 快速定位起始位置
• 自定义(库表名)索引
• 大幅降低过滤开销
• 主备模式
• 增加备节点的额外开销低于25%
• 分布式容灾
DRC同步增量(Writer )
• Writer组件
• 高性能
显示全部