《第0章_分布式系统可靠性设计》-课件.ppt
文本预览下载声明
主要内容 10.1 分布式容错模型 10.2 进程的恢复 10.3 可靠的客户服务器通信 10.4 可靠的分组通信 10.5 分布式提交 10.6 恢复处理 10.7 习题 10.1 分布式容错模型 可依赖系统(Dependable, Trustworthy) 可用性(availability) 系统可为用户服务的能力 可靠性(Reliability) 系统可连续工作的能力 安全性(Safety) 系统故障时产生危害的程度 可维护性(Maintainability) 系统故障修复的难度 基本概念(1) 失效(fail, failure)、失灵 一个系统不能满足它的承诺(提供服务) 差错(error): 导致系统失效的原因 故障(fault): 导致差错发生的原因 基本概念(2) 平均无故障时间(MTTF)Mean Time To Failure 平均能够正常运行多长时间,才发生一次故障。用来度量可靠性 p为每秒失效概率 平均无故障时间(MTTF) = Σ1∞kp(1-p)k-1=1/p 例:p=10-6,MTTF=106秒=11.6天 平均维修时间(MTTR)Mean Time To Repair 系统发生故障后维修和重新恢复正常运行平均花费的时间 用来度量可维护性 可用性= (MTTF / (MTTF + MTTR)) 故障的类型 按照故障出现的概率 短暂型(transient):出现一次,再也不出现 间歇型(intermittent):消失后,再重复出现 永久型(permanent):一直存在 按照故障产生的原因 节点故障 硬件故障 软件故障 时序故障 基本概念(2) 故障控制 预防 去除 预告 容错(fault tolerance) 即使发生故障,系统仍能提供服务 系统的容错能力用可允许的故障节点数量来衡量。 如果系统能够在k个节点出现故障的情况下仍然能够完成任务,则称该系统为k-容错系统。 失效(失败)模型 失效(失败)模型 失败模型 故障-沉静系统(fail-silent)。由于故障产生的系统停止不能被其他节点感知。 故障-停止系统(fail-stop)。由于节点故障产生的系统停止能够被其他节点感知。 故障-安全系统(fail-safe)。由于节点故障而停止服务但不会产生随机故障。 拜占庭(Byzantine)故障系统(随机故障系统)。由于故障导致系统产生任意的响应。恶意的、难检测。 系统类型 同步系统:在规定上限时间内有响应 异步系统:响应时间没有上限 基于冗余的失效屏蔽技术 冗余类型 信息冗余:如,海明码。 时间冗余:如,重发,重做 物理冗余: 软件:如复制进程 硬件:如复制电路 信息冗余和物理冗余都属于空间冗余 基于冗余的失效屏蔽技术 三模冗余方法(TMR,Triple Modular Redundancy) 三路表决器(voter):三路输入,一路输出 可屏蔽一路错误(任意性失效) 10.2 进程的恢复 进程容错 进程组:具有相同功能的进程集合 组成员籍 加入:具有成员籍 脱离:注销成员籍 多组成员籍:同时属于不同的组 设计问题 需要复制的程度 无故障时,平均情况和最坏情况下的系统性能 有故障时,平均情况和最坏情况下的系统性能 组的管理(1) 扁平组:所有成员是同等的 层次组:协调程序和工作程序 组的管理(2) 组成员籍管理 组服务器:集中式管理 多播通信:分布式管理 组的管理(3) 消息同步 加入组时:立刻收到所有消息 退出组时:不再收到任何消息 组的重建 当组崩溃后,重新建立组 重建协议 复制容错技术(1) 复制容错 用多个相同的进程,屏蔽个别故障进程的故障 冗余度:相同进程的个数 基于主进程协议(primary-based) 结构:分层组结构 协议:primary-backup协议 复制写协议(replicated-write) 结构:平面组结构 协议:基于表决数协议 主-后备方法(primary backup) 主服务器失效,则后备服务器接替其任务 接管模型 复制容错技术(2) k-容错度: 在有k个进程发生故障时,系统仍能正确运行 Fail-stop型故障: 对k-容错度,需k+1冗余度 拜占庭型故障: 对k-容错度,需2k+1冗余度 容错的前提条件 所有的请求到达所有服务器的顺序应相同 原子广播问题(atomic broadcast problem) 故障检测 进程故障检测 主动式方法,发送 “Are you alive?”消息 常用方法, ping操作 被动式方法,等待发来的故障消息 超时机制,在规定时间内作出响应,否则,为故障 10.3 可靠的客户服务器通信 点到点通信 可靠通信:防止通信失效 遗漏型失效:消息丢失 解决策略:利用可靠的传输协议,
显示全部