大数据挖掘导论与案例课件:大数据挖掘关键技术.pptx
大数据挖掘关键技术大数据挖掘导论与案例
学习目标/Target掌握Spark的安装、了解运行原理、掌握RDD编程,了解SparkSQL、Streaming和ML掌握Hadoop分布计算架构的安装、部署,了解HDFS原理、理解MapReduce框架和计算模型的原理和优缺点
目录/Contents01大规模并行处理02Spark内存计算
大规模并行处理8.1
8.1.1Hadoop安装Hadoop安装方式(1)单机模式在一台运行Linux操作系统的物理机,或者在Windows操作系统中架设虚拟化平台,虚拟出运行Linux操作系统的虚拟机,在虚拟机上安装Hadoop系统。该模式常用于大数据应用程序的前期开发和测试。(2)单机伪分布模式在一台运行Linux操作系统的物理机或虚拟机上,用不同的进程模拟Hadoop系统中分分布式运行中的NameNode、DataNode、JobTracker、TaskTracker等节点,模拟Hadoop集群的运行模式,该模式常用于大数据应用程序的测试。(3)分布式集群模式在集群环境中安装运行Hadoop系统,集群中的每个计算机运行Linux操作系统,该模式常用于大数据应用程序的实际运行,完成大数据分析和计算任务。
8.1.1Hadoop安装Hadoop安装环境在Windows操作系统中,使用VirtualBox6.1.18虚拟化平台,在虚拟机中安装Ubuntu20.04.3版本的Linux操作系统,安装构建单机伪分布式模式Hadoop系统的基本步骤如下:(1)创建用户在Ubuntu操作系统以root用的身份,创建hadoop用户,紧接着创建一个专门的用户组,命名为hadoop,并将hadoop用户加入hadoop用户组中,基本的命令如下:[root@ubuntu~]#sudouseradd-mhadoop–d/home/hadoop。其中hadoop是用户名,-d指明hadoop用户的home目录为/home/hadoop,该目录为hadoop用户在Ubuntu系统中的根目录。[root@ubuntu~]#passwdhadoop[密码],设置hadoop用户的密码。[root@ubuntu~]#sudogroupaddhadoop。创建hadoop用户组。[root@ubuntu~]#sudousermod-a-Ghadoophadoop。将hadoop用户加入hadoop用户组。使用vim/etc/sudoers命令打开文件,在文件末尾加入hadoopALL=(ALL:ALL)ALL语句,使hadoop用户与root用户具有系统管理权限。
8.1.1Hadoop安装Hadoop安装环境(2)配置SSH在伪分布模式和分布式集群模式中,为了实现Hadoop集群中,所有节点可以免密码登录,需要配置SSH。在root用户中,使用如下命令安装Openssh。[root@ubuntu~]#sudoapt-getinstallopenssh-server-y[root@ubuntu~]$ssh-keygen-trsa#使用该命令后,系统会提示多次确定,完成后将在/home/hadoop/.ssh目录中生成id_rsa认证文件,将该文件复制成名为authorized_keys的文件,并执行sshlocalhost命令测试。如果出现如上图所示的提示,即不需要数据用户密码,则配置正确,如果仍需要输入密码或提示错误,则删除.ssh/文件夹重新进行认证配置。[hadoop@ubuntu~]$catid_rsa.pubauthorized_keys[hadoop@ubuntu~]$sshlocalhost
8.1.1Hadoop安装配置Hadoop切换至root用户,下载JDK,使用命令tar-zxvfjdk-8u161-linux-x64.tar将JDK解压未/usr/local/目录中,将JDBK文件夹重命名文件夹为jdk1.8.0。在Hadoop网站中下载hadoop-3.3.1.tar.gz安装包文件,将其解压在/usr/local/目录中,将解压后的Haoop文件夹重命名文件夹为hadoop-3.3.1。使用chown-Rhadoop:hadoop/usr/local/hadoop-3.3.1命令,将hadoop-3.3.1文件夹的所属用户修改为hadoop。
8.1.1Hadoop安装配置HadoopHadoop系统中的配置文件,集中存放在hadoop-3.3.1文件夹的