文档详情

大数据挖掘导论与案例课件：大数据挖掘关键技术.pptx

发布：2024-10-09约2.24万字共86页下载文档

文本预览下载声明

大数据挖掘关键技术大数据挖掘导论与案例

学习目标/Target掌握Spark的安装、了解运行原理、掌握RDD编程，了解SparkSQL、Streaming和ML掌握Hadoop分布计算架构的安装、部署，了解HDFS原理、理解MapReduce框架和计算模型的原理和优缺点

目录/Contents01大规模并行处理02Spark内存计算

大规模并行处理8.1

8.1.1Hadoop安装Hadoop安装方式（1）单机模式在一台运行Linux操作系统的物理机，或者在Windows操作系统中架设虚拟化平台，虚拟出运行Linux操作系统的虚拟机，在虚拟机上安装Hadoop系统。该模式常用于大数据应用程序的前期开发和测试。（2）单机伪分布模式在一台运行Linux操作系统的物理机或虚拟机上，用不同的进程模拟Hadoop系统中分分布式运行中的NameNode、DataNode、JobTracker、TaskTracker等节点，模拟Hadoop集群的运行模式，该模式常用于大数据应用程序的测试。（3）分布式集群模式在集群环境中安装运行Hadoop系统，集群中的每个计算机运行Linux操作系统，该模式常用于大数据应用程序的实际运行，完成大数据分析和计算任务。

8.1.1Hadoop安装Hadoop安装环境在Windows操作系统中，使用VirtualBox6.1.18虚拟化平台，在虚拟机中安装Ubuntu20.04.3版本的Linux操作系统，安装构建单机伪分布式模式Hadoop系统的基本步骤如下：（1）创建用户在Ubuntu操作系统以root用的身份，创建hadoop用户，紧接着创建一个专门的用户组，命名为hadoop，并将hadoop用户加入hadoop用户组中，基本的命令如下：[root@ubuntu~]#sudouseradd-mhadoop–d/home/hadoop。其中hadoop是用户名，-d指明hadoop用户的home目录为/home/hadoop，该目录为hadoop用户在Ubuntu系统中的根目录。[root@ubuntu~]#passwdhadoop[密码]，设置hadoop用户的密码。[root@ubuntu~]#sudogroupaddhadoop。创建hadoop用户组。[root@ubuntu~]#sudousermod-a-Ghadoophadoop。将hadoop用户加入hadoop用户组。使用vim/etc/sudoers命令打开文件，在文件末尾加入hadoopALL=(ALL:ALL)ALL语句，使hadoop用户与root用户具有系统管理权限。

8.1.1Hadoop安装Hadoop安装环境（2）配置SSH在伪分布模式和分布式集群模式中，为了实现Hadoop集群中，所有节点可以免密码登录，需要配置SSH。在root用户中，使用如下命令安装Openssh。[root@ubuntu~]#sudoapt-getinstallopenssh-server-y[root@ubuntu~]$ssh-keygen-trsa#使用该命令后，系统会提示多次确定，完成后将在/home/hadoop/.ssh目录中生成id_rsa认证文件，将该文件复制成名为authorized_keys的文件，并执行sshlocalhost命令测试。如果出现如上图所示的提示，即不需要数据用户密码，则配置正确，如果仍需要输入密码或提示错误，则删除.ssh/文件夹重新进行认证配置。[hadoop@ubuntu~]$catid_rsa.pubauthorized_keys[hadoop@ubuntu~]$sshlocalhost

8.1.1Hadoop安装配置Hadoop切换至root用户，下载JDK，使用命令tar-zxvfjdk-8u161-linux-x64.tar将JDK解压未/usr/local/目录中，将JDBK文件夹重命名文件夹为jdk1.8.0。在Hadoop网站中下载hadoop-3.3.1.tar.gz安装包文件，将其解压在/usr/local/目录中，将解压后的Haoop文件夹重命名文件夹为hadoop-3.3.1。使用chown-Rhadoop:hadoop/usr/local/hadoop-3.3.1命令，将hadoop-3.3.1文件夹的所属用户修改为hadoop。

8.1.1Hadoop安装配置HadoopHadoop系统中的配置文件，集中存放在hadoop-3.3.1文件夹的

显示全部

相似文档