冶金可用性控制系统综述..doc
文本预览下载声明
冶金可用性控制系统
1 前 言
冶金设备的计算机控制系统,归属于冶金设备选型范畴。冶金设备自动化装备水平的提高,势必要求提高其计算机控制系统的可靠性和可用性。例如,高炉炼铁、转炉炼钢过程,绝对不允许故障停机,否则会导致炉水凝结、甚至炉体爆炸等重大安全事故。又如,轧制过程控制系统意外停机和检修都会造成不同程度的经济损失。使用高可用性控制系统的目的是为了减少生产损失。停工的成本越高,就越需要容错系统。容错系统的高投入会很快被避免的生产损失所补偿。随着计算机(包括微控制器)所有权总成本(TCO)的降低,使用计算机冗余配置和热备工作方式,取代过去通过提高单机可靠性从而提高系统可用性的方式,已经成为必由之路。
按照目前流行的自动化体系结构,典型的冶金自动化系统按功能层次可分为基础自动化、过程自动化、制造执行系统(MES)、企业资源计划(EBP)4个层面。各层面之间相互依赖,彼此制约。要实现整个生产体系的高可用性,就必须对每一级控制系统的关键任务分别进行热备份冗余设计。
由于除基础自动化级普遍使用PLC控制器外,其余三级系统都使用计算机或服务器作为系统控制中心,只是规模有别而已。因此,为叙述方便,本文分别从计算机热备冗余设计和PLC热备冗余设计两方面进行阐述。
2 计算机热备冗余设计
通过使用计算机集群技术实现双机热备。集群计算机是一组通过特定的硬件和软件连接起来的独立计算机,它在用户面前表现为一个单一系统印象。高可用性集群作为集群应用的重要分支,能够自动检测系统的故障(包括硬件和软件),随即可将该计算机上的所有进程转移到其它计算机上,保证集群计算机系统提供不间断服务。大规模的高可用性集群支持32点,甚至128点的计算机群,但典型应用为2点集群,即通常所说的双机热备。系统体系结构如图1所示。
图1 系统体系结构
2.1 心跳线
心跳线是所有类型高可用性集群的必选连接。心跳是指应用系统的一次最小的成功操作,比如成功录入一条信息、修改一个档案等。也可以是主、备机通信软件发出的状态报告信号。心跳通过心跳线传输,备机通过判断心跳有无和心跳内容,便可以识别出诸如系统宕机、应用进程被杀掉、心跳线、网络线缆是否断开等故障。
心跳线的选择一般为一条7线零modem RS232串口连接线和一条以上的以太网交叉线。由于串口和以太网心跳线的通信协议不同,能够判别非物理连接失败而引起的通信故障,不会因某一心跳线的链路失败而误动作。配置多条心跳线,可以有效避免由于其中一条意外断开而引起的非主机故障启用备份机。
2.2 数据共享
集群体系结构对应用数据的共享方式按照复杂性从小到大的顺序可分为“全盘复制”、“不作共享”和“全面共享”三种。如图2所示。
图2 数据共享方式示意图
不同的集群软件会采取不同的数据共享方式。在冶金设备控制系统服务器的热备方案选型中,除服务器本身占据部分投资成本外,存储设备选择的不同会有较大的成本差异。低端的存储解决方案可以控制在数千元左右,而高端的成本投入往往会数倍于服务器。因此,存储设备的选型是极为重要的环节。
在“全盘复制”的方法中,每台服务器都有自己的数据磁盘,并且不断的把活动数据从服务器复制到服务器。采用此方式的集群软件有Vinca、Marathon和NSI Double Take.Linux系统平台上的DRBD和NBD软件包专门实现这样的功能。此方式不需要配置磁盘阵列作为存储系统,是一种廉价的存储方案。并且,它提供了额外的安全度,因为所有的数据存储以及所有的数据处理部件都是双份的,消除了存储系统的单点故障(单个部件的失效引起的整个系统的故障)隐患。该方式最大的缺点是,当故障发生在工作机进行磁盘写操作时,会丢失链路中正在复制的数据,使得备份机的磁盘数据无法更新。另外,备份服务器维护数据镜像需要很高的网络和服务器开销。通常,这样的数据共享方式需要在服务器间建立1Gbit Ethernet以上速度的机间通讯。
在“不作共享”的方法中,两台服务器都连接到相同的磁盘上,但是每台服务器专门控制公共数据磁盘中自己的那一部分。当工作服务器出现故障时,备用服务器会接管对主服务器磁盘空间的控制,将主服务器关到外边。这种方法消除了在磁盘镜像之间维护一致性的问题,同时省去了网络和服务器维护磁盘镜像的开销。缺点是共享磁盘存在对集群系统的单点故障威胁,如果共享磁盘发生故障,那么就没有一台服务器能够提供应用服务了。这是Microsoft Cluster Server所采用的方法。在配置微软集群时,可以使用独立磁盘,但如果预算允许,必须使用可以容错的磁盘阵列(RAID)。必要时,还须强制实施磁盘阵列的备份。
“全面共享”与“不作共享”相同之处在于
显示全部