文档详情

高可用性报告.doc

发布:2017-05-28约3.38万字共26页下载文档
文本预览下载声明
高可用报告 一、?? 高可用分析 1、三个概念 失效(fault):指设备或程序自身固有缺陷导致的瞬间或永久性的功能失常。 错误(error):由失效导致的系统内部不正确行为。错误可以被发现并进行纠正。 故障(failure):指由于出现错误导致了系统产生了不正确的结果。 2、平均故障发生时间MTTF ( Mean Time To Failure) MTTF是一个统计上可测量的参数 MTTF ( 寿命 MTTF= 1 / 稳态运行期间的故障发生率 N台机器T时间内故障数: E = (N×T)/ MTTF 3、服务器系统的运行—维护周期 可靠性: 系统连续提供服务的能力,MTTF: Mean Time To Failure 可维护性:修复故障使系统恢复正常的能力,MTTR: Mean Time To Repair 4、可用性(Availability) 可用性= MTTF / (MTTF + MTTR) 例: MTTF=5000小时, MTTR=1天, 则可用性为: 5000/(5000+24) = 99.52% 5、提高可用性的途径 1)??????? 提高 MTTF 2)??????? 降低 MTTR 二、硬件高可用 (一) Cluster中硬件HA的目标 1、 问题的起源:单点故障问题及其应对策略 单点故障:某些硬件或软件部件,它们的故障会导致整个系统的崩溃。[6] 机群系统可能出现的单点故障有: ????????? 处理器或节点 ????????? 存储程序或数据的磁盘 ????????? 适配器、控制器和连接节点到磁盘的电缆 ????????? 用户访问机群节点的网络。 ????????? 应用程序 应对策略:通过系统地消除那些单点故障来尽可能使更多的故障成为部分故障。[6] 解决机群中的单点故障问题:解决大多数的单点故障问题并不需要使用任何分层软件产品。计算从任何特殊错误中恢复所需人工干涉的总时间和精力。然后再考虑系统能否承受停机造成的损失,以及能否提供全天操作中必须的人工干预。对于机群设计者而言,这将有助于决定是使用人工干预来管理还是需要采取其它措施来满足高可用性的要求。 ( 节点故障 在机群中,当一个节点提供的服务是关键性的话,那么当该节点失效时,机群中必须有另外的节点来代替它的资源,向终端拥护提供相同的服务。 包括以下步骤: 1、? 2、在故障和备用节点之间引入和改变所有组的卷,并且装上所有需要的文件系统。 3、修复存储在故障节点内部磁盘上的所有应用程序和数据。 4、执行任何鉴定性的应用程序。 假定后备节点在关键服务中还没有被网络访问。这样,每个节点需要额外的网络适配器,这个节点将被备份。如果用户通过串行连接访问失效节点,每个终端应该物理上重连接到后备节点的端口上。如果外部磁盘没有连接到失效节点和后备节点之间的通用总线上,则需要手工将他们从一个转换到另一个。所有关键数据被保存在外部磁盘上。如果最后的后备节点变为不可用,所有关键数据则被保存至节点的内部磁盘。 ( 磁盘和I/O总线故障 为了防止包括磁盘的外部I/O通道中的任何部分出错,应该在两路I/O总线上将磁盘镜象或者使用从节点到存储子系统有双重路径的磁盘阵列系统。 ( 网络适配器故障 为了防止网络适配器故障,每个提供关键服务的节点需要配置备用网络适配器。这个适配器连接到与用户正在访问的主适配器相同的网络主干上。如果网络适配器失效,可以将备用适配器的地址改为失效适配器的地址。另外一种方法是始终有一个热备份的网络适配器可以随时替代出错适配器。这种方法从故障中恢复的时间更短,因为系统安装备用适配器无需停机。 ( 网络故障 如果用户正在和一个节点通信时网络主干停止工作,解决方案之一是人工地将所有机群节点和客户端机器切换到另外一个主干上。即便有足够的时间和精力去这样做,还得保证没有松散的连接或网络设备(路由器、集线器或网桥)故障引起主干失效。另外一个解决方案是连接一个终端的子集到备用节点的串口上,这样还可以提供最小级别的服务。在这种情况下应用程序必须被设计成允许用户既可以通过网络连接到终端也可以通过串口连接到终端。 ( 应用程序故障 根据应用程序的设计,为监控应用程序使用的后台程序,并及时对状态改变作出反应,应该使用AIX子系统资源控制器。 2、 人工干预的缺点 根据上述的讨论,依据故障的不同类型。包括检测故障所花时间,很明显从任何机群故障中人工恢复的时间为30分钟到几个小时。这对许多应用在重要场合的机群来说
显示全部
相似文档