NBU运维工具介绍_v1.5.doc
文本预览下载声明
备份运维工具介绍
一、
长期以来,我们一直采用人肉保障备份系统正常运行,备份管理人员每天需从数千条作业中挑出错误作业进行人工处理,该工作方式效率低下,无法形成有效的问题闭环。而且人工处理因对主观能动性较高,不同的管理人员有着不同的工作结果,期间出现因未及时处理备份而导致数据丢失,为此我们需要一个备份自动化处理平台提升备份管理效率,有效保证每个备份成功。
二、
通过科学、合理的建立自动化备份运维工具,实现友好的展示备份作业信息及备份基础数据信息,能对错误备份进行邮件告警并自动处理错误备份作业并及自动重备。使备份运维更简单,更智能,能对外提供备份及恢复服务,有效提升备份管理效率,保证关键数据备份成功完成,已备份的数据具备可恢复能力。最终当灾难发生时,备份系统能实现为应用系统恢复提供数据支持。
三、
1.友好性需求
通过对NBU源数据进行过滤、加工等工作使将页面友好的展示给备份管理员。
编号 NBU功能 需求 1 显示全部的错误信息 只显示有效的错误信息 2 不能分层显示错误信息 将错误3次、未处理、处理中、重新处理完成、无需处理的作业进行分层展示 3 多人协作时,无法跟踪作业状态 增加管理员按钮,跟踪备份作业处理状态
页面显示的错误JOB信息降低错误的复杂度。
来显示紧急度错误,未处理,重新处理中,重新处理完成,处理的错误JOB信息明晰需要处理的JOB。
管理员按钮,管理员手动处理完,更新状态团队其他成员就处理未处理完的JOB显示了错误信息人工还是手动处理的。
按照实际备份运维需求,针对NBU无法实现的功能进行二次开发及改善。
编号 NBU功能 需求 1 NBU按备份需求会删除以前错误信息 错误信息入库永久保存 2 无法查看oracle备份日志 能详细查看单个错误信息(含oracle) 3 NBU 无法定时发起重新备份 自动发起包含84,83,52等错误代码的文件系统备份作业, 4 无法自动化修复错误作业 针对48,58,59,25,23错误代码进行自动化修复
该平台能自动录入错误信息并永久保存,能自定义时间进行历史错误作业查询。
该平台能够详细查看oracle备份日志加快分析处理速度。
该平台能够每天早上8时针对部分错误作业(如11,13,25,40等),进行重新发起并跟踪,保证了重备及时性。
该平台能自动修复部分错误代码作业(如48,58,59,25,23等),提高处理效率。
3.开放性需求
通过定制开发,使备份能作为服务提对外开放
编号 NBU功能 需求 1 无法实现错误信息邮件提醒 错误作业自动发邮件体提醒 2 NBU存在多域,查询麻烦 提供页面手工发起备份
该平台每天将上一天的备份错误作业信息通过邮件转发至备份管理员侧,提醒管理员进行处理。
该平台可实现通过主机名查询备份策略,发起备份策略并能对手工发起的进行跟踪。
4.未完成需求
按照现有需求进行优化及补充,使运维工具更智能更完美。
编号 NBU功能 1 无选项显示指标 显示磁带使用率、备份成功率等指标 2 无法智能发起备份 大量作业的时候,延迟运行 实时展示带库使用率、备份成功率等指标,为数据迁移及扩容提供数据支撑,衡量备份管理成效。
分析在线运行备份作业状况,智能发起备份作业。
四、
通过备份自动化运维工具,使备份运维更加简单,智能,大大减少备份运维中的重复工作,有效提升备份效率,从以前的每天需花半个人天进行备份作业处理,到现在每天只需花费2小时,甚至更短的时间去处理备份作业,备份错误也有效的减少,下图为前后对比,5月初正式启用备份运维工具。
五、发
1、rhel 6.x 7.x python 2.7 django 1.8
2、能够有一台跳转机到任何客户端、media server、master server的,管理机到各个master server需要开通
13701-13786
1556 端口
3、Python+django+mysql
显示全部