文档详情

archsummit北京2015-《让数据川流不息——阿里云数据传输服务揭秘》-程实(时勤).pdf

发布:2016-01-20约字共18页下载文档
文本预览下载声明
让数据串流不息 阿里数据传输服务揭秘 程实(时勤) @ 阿里巴巴 2015-12-19 DT时代——利用数据 • 生产数据不再是难题 • 利用数据产生价值,才是关键 • 实时分析(实时商业决策、搜索、安全审计) • 典型案例:数据从DB实时同步到Storm,要求低延时 • 离线分析 (大数据分析) • 典型案例:数据从DB周期性导入到Hadoop,要求高吞吐率 • 异地容灾,异地读写 • 典型案例:云数据库多地容灾,本地读写 • 传统数据服务架构,对于利用数据并不友好 DT时代——增量数据服务化 • 业界已有的一些方案 • 统一的OLTP和OLAP • Databases on Hadoop • SAP Hana • 分布式DB:异地问题 • 迁移工具 • 业务同时写入到多个DB/平台 • 增量数据必须服务化 • 降低DB查询压力 • 降低业务方开发难度和耦合性 • 多种DB统一服务 • 多种下游统一服务 • 支持异地多活架构 DT时代——阿里内部案例 • 淘宝核心交易库 • 双十一数据量 • 全天同步总量:百TB级别(全网6倍) • 高峰增量流量:Gbps级别 • 增量消费的下游 • 5个实时下游业务 • 实时媒体大屏 • 实时商业分析 • 实时搜索 • 实时备份 • 1个离线分析平台 • 含多个子任务 • 2个异地实时备份链路 (异地多活) • 上海到杭州 • 上海到深圳 DRC和DTS • DRC——增量同步基础设施 • 增量抓取和存储 • 增量同步和订阅 • DRC在阿里广泛使用 • DTS——云上传输数据服务 • 上云数据迁移 • 云内外混合部署 • 跨地域部署 • 订阅服务 DRC模块构成 • 模块构成 • Reader:抓取日志 • Queue:存储 • Client:订阅SDK • Writer:同步到DB • CM:集群管理 • RM:自动化接入 • Console:运维控制台 • DaBai:全链路监控大屏 DRC抓取日志(Reader ) • 不同类型DB采用不同Reader设计 • MySQL(5.1+):基于mysqld主备同步机制 • Oracle:解析AchieveLog (非实时)和RedoLog (实时) • OceanBase:提供日志服务 • Hbase:解析HLog DRC的队列存储(Queue ) • DRC Queue队列存储 • 高性能 • 实时读写28万rps,读历史90万rps • 支持1K连接并发读 • 压缩持久化 • 压缩率30% • 缓存和预读 • 位点/时间索引 • 快速定位起始位置 • 自定义(库表名)索引 • 大幅降低过滤开销 • 主备模式 • 增加备节点的额外开销低于25% • 分布式容灾 DRC同步增量(Writer ) • Writer组件 • 高性能
显示全部
相似文档