文档详情

抖音电商数据仓库治理实践.pptx

发布:2024-08-29约5.72千字共43页下载文档
文本预览下载声明

#

Contents?录现状解读发展阶段解决?案思考展望

数据规模存储体量?:存储体量EB级别,有效数据表总量过万数据源头多:BP团队有超?多种数据接??式,数据源头数千个计算体量?:任务整体万级别,计算量级超??万core

数据复杂度组件类型多:?多种数据源类型接?业务依赖多:?多个业务?向依赖作业依赖多:超过上万个外部直接/间接依赖下游多:??条业务线依赖电商输出场景复杂:包含搜索、推荐、结算等场景使??式多:包含KV、OLAP、搜索等?式数据域多:电商业务复杂度决定数据域多,超10+数据基础域数据域组合多:多数据域交叉超过20+组合情况,数据规模激增数据组织形式多:电商玩法多,数据需要不同呈现形式,应?层逻辑复杂、体量较?

婴?期

阶段?:标准化流程发布缺少管控?规范/个?规范规范落地效果差规范效率平衡整合规范:在建表、开发、运维等多个流程中?泛听取群众意?,结合?些关键?标,设定对应流程增量管理:重点关注新增资产流程落地情况,尝试结合?具做好评审和管控,收敛新增问题分级管理:抓?放?,根据实际需要,管控主流程,各?流程交由各??向决策问题思路

整体?案效果初评详评找数流程?数流程分层标准域划分标准SQL研发标准组件使?标准服务标准数据质量数据SLA数据成本提?标准阻断标准值班流程应急流程交接流程完成各?向产研流程管理落地,流程边界清晰、可落地承接率、逾期率均得到?幅改善各类主流程变更完成管控升级,结合?具化有效控制新增问题发?新增资产完成管控,存量资产逐步?然消亡统筹形成管理框架,并作为核?开发指导原则引导各类流程建设各??向根据实际需要灵活调整,达成管理平衡?案效果

少?期

阶段?:稳定性质量保障发布缺少管控变更不收敛问题感知滞后事后治理落地差资产基数?、管理难增加事前发布管控:在建表、开发、运维等流程中设定稳定性、质量检测流程问题 思路增加事中事件管理:增加各类组件稳定性看板、建设巡检能?形成主动布防、事中问题处理流程标准化增加事后治理管理?具:增加统?治理?具,助?事后问题分析、解决,提升事后治理效率全??资产管理:完成资产分层及落地,建设全流程管理标准及推进落地

整体?案事前事中事后管理开发规范模型规范参数规范编码规范运?规范链路检查配置检查编码规范质量规范性能测试质量测试调度前 变更巡 巡检检依赖巡检组件巡检调度中 基线运 监控维组件监控值班运维调度后 ?常跟 问题踪紧急问题问题复盘治理策略基线异常作业异常组件异常治理能?问题分析问题处置三?裁定治理效率?作台治理分级治理运营资产分层质量标识SLA标识应?标识标准落地?具集成内部宣导上岗考试标准确定多?拉??业参考试运?

事前

事中

模块功能点描述依赖巡检?时依赖巡检检查?时任务的完成情况,避免第?天凌晨调度才发现问题。?依赖任务巡检检查?依赖任务的完成情况,避免回溯导致问题。maxpt巡检检查maxpt的依赖是否到期,上游表是否有效。T+2依赖巡检检查依赖的T+2任务是否完成,T+2容易忽略,需要关注。变更巡检表-任务?致性检查检查表和任务是否??对应,避免因字段不对造成任务失败源系统变更检测源系统变更触发式的响应,通知数据研发,判断是否要?起变更。链路变更巡检如果sla链路变更了,巡检是否存在破线延迟的可能。队列巡检夜间回溯巡检检查队列是否有回溯的任务,避免占?凌晨?峰期的队列资源夜间adhoc巡检检查队列是否有adhoc任务,避免占?凌晨?峰期的队列资源调度前

调度中

调度后模块功能点描述?险预警Oom预警检测任务的运?状态,针对接近oom的任务报警,提醒owner优化。(包括driveroom和executoroom)数据倾斜预警对于数据严重倾斜的任务进?预警,提醒owner优化。异常运?时?预警针对作业较之前波动较?的任务进?预警,提醒owner优化。失败重跑成功预警针对失败?次但重跑后成功的任务,仍需提醒owner优化。状态播报全局运?状态播报定时发送作业/基线的运?状态,更好的掌握当天任务运?情况,环?指标,适当进?归因。基线状态播报针对基线运?情况,适当给出运?时间变化的原因。复盘管理报警作业归因建设报警任务的?动化归因能?,提升归因的准确性。sla复盘出现延迟问题,进?复盘并录?系统。?动问题跟踪

事后偏专项类解决某?类、某?问题场景,具有?定体系性、滞后性详细?产品化模块,此处不展开

?案效果 数据质量:落地质量专项,按照字节内部标准,电商BP持续保持全年0故障 数据SLA:落地稳定性专项,完成电商时效保障体

显示全部
相似文档