文档详情

《第0章_分布式系统可靠性设计》-课件.ppt

发布：2018-11-08约8.81千字共60页下载文档

文本预览下载声明

主要内容 10.1 分布式容错模型 10.2 进程的恢复 10.3 可靠的客户服务器通信 10.4 可靠的分组通信 10.5 分布式提交 10.6 恢复处理 10.7 习题 10.1 分布式容错模型可依赖系统（Dependable, Trustworthy）可用性（availability）系统可为用户服务的能力可靠性（Reliability）系统可连续工作的能力安全性（Safety）系统故障时产生危害的程度可维护性（Maintainability）系统故障修复的难度基本概念（1）失效（fail, failure）、失灵一个系统不能满足它的承诺（提供服务）差错（error）：导致系统失效的原因故障（fault）：导致差错发生的原因基本概念（2）平均无故障时间(MTTF)Mean Time To Failure 平均能够正常运行多长时间，才发生一次故障。用来度量可靠性 p为每秒失效概率平均无故障时间(MTTF) = Σ1∞kp(1-p)k-1=1/p 例：p=10-6，MTTF=106秒=11.6天平均维修时间（MTTR）Mean Time To Repair 系统发生故障后维修和重新恢复正常运行平均花费的时间用来度量可维护性可用性= (MTTF / (MTTF + MTTR)) 故障的类型按照故障出现的概率短暂型(transient):出现一次，再也不出现间歇型(intermittent)：消失后，再重复出现永久型(permanent)：一直存在按照故障产生的原因节点故障硬件故障软件故障时序故障基本概念（2）故障控制预防去除预告容错（fault tolerance）即使发生故障，系统仍能提供服务系统的容错能力用可允许的故障节点数量来衡量。如果系统能够在k个节点出现故障的情况下仍然能够完成任务，则称该系统为k-容错系统。失效（失败）模型失效（失败）模型失败模型故障-沉静系统(fail-silent)。由于故障产生的系统停止不能被其他节点感知。故障-停止系统(fail-stop)。由于节点故障产生的系统停止能够被其他节点感知。故障-安全系统(fail-safe)。由于节点故障而停止服务但不会产生随机故障。拜占庭(Byzantine)故障系统（随机故障系统）。由于故障导致系统产生任意的响应。恶意的、难检测。系统类型同步系统：在规定上限时间内有响应异步系统：响应时间没有上限基于冗余的失效屏蔽技术冗余类型信息冗余：如，海明码。时间冗余：如，重发，重做物理冗余：软件:如复制进程硬件：如复制电路信息冗余和物理冗余都属于空间冗余基于冗余的失效屏蔽技术三模冗余方法(TMR,Triple Modular Redundancy) 三路表决器(voter)：三路输入，一路输出可屏蔽一路错误（任意性失效） 10.2 进程的恢复进程容错进程组：具有相同功能的进程集合组成员籍加入：具有成员籍脱离：注销成员籍多组成员籍：同时属于不同的组设计问题需要复制的程度无故障时，平均情况和最坏情况下的系统性能有故障时，平均情况和最坏情况下的系统性能组的管理（1）扁平组：所有成员是同等的层次组：协调程序和工作程序组的管理（2）组成员籍管理组服务器：集中式管理多播通信：分布式管理组的管理（3）消息同步加入组时：立刻收到所有消息退出组时：不再收到任何消息组的重建当组崩溃后，重新建立组重建协议复制容错技术（1）复制容错用多个相同的进程，屏蔽个别故障进程的故障冗余度：相同进程的个数基于主进程协议(primary-based) 结构：分层组结构协议：primary-backup协议复制写协议(replicated-write) 结构：平面组结构协议：基于表决数协议主-后备方法（primary backup）主服务器失效，则后备服务器接替其任务接管模型复制容错技术（2） k-容错度：在有k个进程发生故障时，系统仍能正确运行 Fail-stop型故障：对k-容错度，需k+1冗余度拜占庭型故障：对k-容错度，需2k+1冗余度容错的前提条件所有的请求到达所有服务器的顺序应相同原子广播问题（atomic broadcast problem）故障检测进程故障检测主动式方法，发送 “Are you alive?”消息常用方法， ping操作被动式方法，等待发来的故障消息超时机制，在规定时间内作出响应，否则，为故障 10.3 可靠的客户服务器通信点到点通信可靠通信：防止通信失效遗漏型失效：消息丢失解决策略：利用可靠的传输协议，

显示全部

相似文档