文档详情

spark快速入门-厦门大学数据库室.doc

发布:2018-04-07约1.37万字共19页下载文档
文本预览下载声明
厦门大学 《》 主讲教师:林子雨 二零一年月 目录 1 前言 1 2 准备工作 1 3 安装Spark 1 4 运行Spark示例 2 5 通过Spark Shell进行交互分析 3 5.1 基础操作 4 5.2 RDD的更多操作 5 5.3 缓存 6 6 SparkSQL和DataFrames 6 7 Spark Streaming 8 8 独立应用程序(Self-Contained Application) 9 8.1 应用程序代码 9 8.2 安装sbt 10 8.3 使用sbt打包Scala程序 12 8.4 通过spark-submit运行程序 13 9 进阶学习 13 附录1:任课教师介绍 13 附录2:课程教材介绍 14 附录3:中国高校大数据课程公共服务平台介绍 15 《》 主讲教师:林子雨 E-mail: ziyulin@ 个人主页:/linziyu 前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。 本教程的具体运行环境如下: CentOS 6.4 Spark 1.6 Hadoop 2.6.0 Java JDK 1.7 Scala 2.10.5 准备工作 运行 Spark 需要 Java JDK 1.7,CentOS 6.x 系统默认只安装了 Java JRE,还需要安装 Java JDK,并配置好 JAVA_HOME 变量。此外,Spark 会用到 HDFS 与 YARN,因此请先安装 Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。 安装Spark 待 Hadoop 安装好之后,我们再开始安装 Spark。官网下载地址:/downloads.html本教程选择的是 Spark 1.6.0 版本,选择 package type 为 “Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,再点击给出的下载连接 /dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz 就可以下载了,如下图所示: Package type Source code: Spark 源码,需要编译才能使用,另外 Scala 2.11 需要使用源码编译才可使用 Pre-build with user-provided Hadoop: “Hadoop free” 版,可应用到任意 Hadoop 版本 Pre-build for Hadoop 2.6 and later: 基于 Hadoop 2.6 的预先编译版,需要与本机安装的 Hadoop 版本对应。可选的还有 Hadoop 2.4 and later、Hadoop 2.3、Hadoop 1.x,以及 CDH 4。 为方便,本教程选择的是 Pre-build with user-provided Hadoop,简单配置后可应用到任意 Hadoop 版本。下载后,执行如下命令进行安装: sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名 安装后,需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath,执行如下命令拷贝一个配置文件: cd /usr/local/spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh 编辑 ./conf/spark-env.sh(vim ./conf/spark-env.sh) ,在最后面加上如下一行: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath) 保存后,Spark 就可以启动、运行了。 运行Spa
显示全部
相似文档