FusionSphere 5可靠性技术白皮书服务器虚拟化.docx
1
系统架构说明
1.1华为FusionSphere解决方案总览
图1-1华为FusionSphere解决方案总览
华为FusionSphere解决方案对业务系统的多个应用整合后,提高了服务器利用率和系统可靠性,降低采购成本,提高维护效率。通过弹性主机基本服务提供方便快捷按需使用的优质弹性服务;自助申请调度资源、查询,无需人工服务;成本低,体验好:低于传统业务模式,自动服务显著提高响应速度。
2
架构可靠性
架构可靠性关注的主要内容是当前解决方案是如何保证数据中心间和数据中心内各个子系统间的业务可靠性和公共平台的可靠性。
网络路径全冗余
FusionSphere解决方案的网络按照层次划分,可以分为核心层、汇聚层、接入层和虚拟网络层。
核心层交换设备主要完成各数据中心之间的通信互联,同时提供FusionSphere对外网络出口。可通过使用S93xx交换机集群,保证对外与防火墙/NAT和对内各数据中心汇聚交换机连接的冗余。
汇聚层交换设备位于各个数据中心机房内部,完成本数据中心内各接入层交换机的流量汇聚,对外与核心层交换机通过三层互通,同时对接入层交换机提供二层接入功能。通过使用S93xx交换机集群,保证了对外与核心层交换设备和数据中心内接入层交换机连接的冗余。
接入交换机位负责本机柜内部的服务器接入。可通过使用S53xx交换机堆叠,保证对外与汇聚层交换设备和对内虚拟网络层连接的冗余。
虚拟网络层位于服务器内部,负责服务器内部的虚拟机之间以及对外通信功能。通过采用多网卡绑定,避免单个网卡故障引发的业务中断。
图2-1网络路径全冗余的配置示意图
网络分平面通信
整个云计算系统逻辑上可以分为三个平面:管理平面、存储平面和业务平面。为了保证各种网络平面数据的可靠和安全,FusionSphere采用分网络平面的架构方案,不同平面间采用VLAN进行隔离,单个平面的故障不影响其他平面继续工作。例如当管理平面暂时故障时,业务平面还能够用于继续访问虚拟机。此外,系统还支持基于VLAN的优先级设定,使得内部的管理/控制报文具备最高的权限,从而使得在任何时候,管理员和用户均可以管控系统。
下图给出了从服务器-接入层交换设备-汇聚层交换设备间的网络连接图:
图2-2网络分平面通信隔离示意图
在服务器内部,可通过对多个网卡的合理绑定和分类,允许将管理、业务和存储平面部署在不同物理网卡上,并将其连接到不同的接入层交换设备接口上,从而实现物理层面的网络隔离。
管理节点HA
FusionSphere的业务主备管理节点采用管理平面的心跳检测,备用节点实时检测主用节点的健康状态,一旦发现主用管理节点故障,备用管理节点将立刻接管主用节点业务,持续对外提供服务。针对管理节点上的应用进程,通过采用软件狗的方式对运行在管理节点上的进程进行实时检测,如发现进程吊死或进入死循环,软件狗将会检测到相关进程的异常状态,并触发相关进程的重启恢复;如果发现进程重启后仍不能恢复正常,则进行业务管理节点的主备倒换并出主备心跳异常告警以保证应用进程的可靠性。
图2-3
图2-3管理节点HA示意图
管理节点负责对全系统的业务进行管理,采用主备高可靠性的工作方式,如果主备管理节点同时故障,相关的新增业务会受影响,例如虚拟机的创建和删除等,但对于已经存在并运行中的虚拟机无影响,用户继续使用虚拟机上的应用程序,不会有任何感知。
流量控制
为向用户提供稳定的高可用的并发业务和避免大流量冲击导致系统崩溃,管理节点针对系统关键流程设计了完善的流量控制机制。首先在VRM接入点采用操作流控措施,从前端抑制系统过载,保证系统的稳定性。其次是针对系统内部的瓶颈环节,增加了镜像文件下载流控,鉴权、虚拟机相关业务流控(包括虚拟机迁移,虚拟机HA,虚拟机的创建,虚拟机的休眠和唤醒,启动和停止),OM流控,确保各个环节不因为流量过载导致业务失效。
故障检测
系统提供了故障检测和告警的功能,同时它包括了在Web浏览器中显示故障信息的工具。一旦集群进入正常状态,系统提供使用数据可视化工具观察集群管理和分配负载的功能,可以帮助用户确定是否有负载均衡问题、失控进程或硬件性能下降的趋势,将对合理调整、分配系统资源,提高系统整体性能起到重要作用。历史记录允许查看集群每日的、每周的,甚至是每年消耗的硬件资源。
通过在每个被检测的节点包括定制化的虚拟机上运行探针程序,OM系统可以收集被检测节点或者虚拟机的核心指标如CPU使用情况、基础网络流量和内存数据等,检测到
诸如进程崩溃、管理和存储链路异常,节点宕机、系统资源过载等各种异常,使系统具备完善的故障检测能力。
另外华为FusionSphere解决方案提供了健康检查工具,为技术支持工程师和维护工程师提供的一套日