文档详情

Cloudera大数据平台迁移方案.docx

发布:2018-02-18约1.27万字共43页下载文档
文本预览下载声明
Cloudera大数据平台迁移方案1.前言42.大数据处理平台迁移方案42.1.方案一: 原地升级42.2.方案二: 拷贝迁移52.3.方案优缺点比较53.迁移准备53.1.卸载IDH63.1.1.停止作业并阻止HDFS写入63.1.2.备份Hive元数据73.1.3.记录IDH运行时一些关键的目录结构73.1.4.停止集群所有服务83.1.5.集群停止后的关键目录结构93.1.6.记录并保存一些关键的目录内容93.1.7.同步标记点103.1.8.卸载Intel Hadoop发行版113.2.安装Cloudera Enterprise133.2.1.为Hive元数据安装MySQL133.2.2.安装Cloudera Manager Server153.2.3.启动Cloudera Manager并安装CDH193.2.4.* 给集群节点分配角色273.2.5.* 配置组件属性并启动集群283.2.6.部署客户端配置313.2.7.进入Cloudera的管理界面并启动升级324.扩展工作404.1.1.Cloudera Manager Database HA and Metastore HA404.1.2.HDFS HA404.1.3.Sqoop 2404.1.4.多HBase的方案41前言此手册是基于以下假设的:您是做的(Intel Manager 加IDH 2.5.1)到(Cloudera Manager 加CDH 5.2.1)的迁移您已经安装并配置好了IDH 2.5.1IDH 2.5.1的集群按照您期望的运行,例如:运行作业会得到您预期的结果CDH和IDH的服务角色尽可能一致,例如HBase的RegionServer在IDH节点x上运行,则CDH中此RegionServer也应在节点x上运行Cloudera Manager 运行的节点应该是以前IDH Manager运行的节点您应该知道怎么样安装和配置IDH 2.5.1和 CDH 5.2.1集群。换句话说,您必须熟悉如何使用各自的发行版安装集群在IDH 2.5.1中HA drbd被启用升级的操作在CentOS/RedHat/SUSE 11 SP2上都做过验证用户了解自己的平台配置,数据以及应用对新平台的开发也已经有所了解应用程序在新平台的测试环境中已经能够运行大数据处理平台迁移方案本次平台迁移的方案有两种可选方案:原地升级和拷贝升级方案一: 原地升级该方案主要思想是将原IDH集群直接迁移到Cloudera集群并迁移应用。在升级的过程中用特定的工具将集群上得HDFS上的数据和HBASE上的数据分别从HDFS1.x和HFile V1转换为HDFS2.x和HFileV3。优点:原有IDH集群中的数据不需要重新加工和导入;升级时间短。缺点:原有IDH集群中的组件例如Hadoop、Hive、HBase等对应CDH集群的版本变化较大(Hadoop1.0.3升级到Hadoop2.5版本;Hive0.11升级到Hive0.13版本;HBase0.94升级到HBase0.98版本),涉及的技术细节较多,停机时间较长,在平台迁移期间,Hadoop集群无法对外提供服务。方案二: 拷贝迁移该方案的主要思想是用额外资源组建一套新的CDH集群,在CDH集群上重新加载数据并迁移上层应用。等基于CDH集群上的所有工作就绪后,逐步切换到CDH上,然后再将剩余的IDH集群节点升级到CDH集群上。优点:业务停机时间短,风险可控缺点:在迁移期间,需要将已有系统的数据导入到新集群中,视集群的规模而定,导入的时间会比较长,后期还需要两边同时导入。方案优缺点比较实施风险业务中断是否需要额外硬件数据重新导入原地升级低较长(数小时)不需要额外备份不需要拷贝迁移低较短需要有富余的存储需要综上,经过对上述两种种方案各自优缺点的分析,推荐在数据量小于集群总容量1/2,或者有富余集群的情况下采用拆分拷贝升级方案;对于数据量大于总容量1/2的集群又没有额外节点存储资源的,可以使用原地升级方案。本篇内容会介绍拷贝迁移的方案。迁移准备迁移之前的准备工作要确保数据平台当时的运行状况是良好的,可以通过以下几个方面判断:运行相关的应用,能得到正常的结果;组件服务运行良好,没有任何非故意的节点服务失败现象;通过“sudo –u hdfs hadoop fsck /”或者HDFS的Web界面检查文件是否有损坏现象Under-replicated blocks (那些复制份数小于配置要求的块数量)Mis-replicated blocks (缺少的块复制数量,如果有两个块A和B,复制份数小于实际配置,A缺少两个复制,B缺少一个复制,则最后缺少的块复制份数是3)Corrupt blocks (损坏的块数量,应该是0)停止所有作业卸载IDH停止作业并
显示全部
相似文档