spark快速入门-厦门大学数据库室.doc
文本预览下载声明
厦门大学
《》
主讲教师:林子雨
二零一年月
目录
1 前言 1
2 准备工作 1
3 安装Spark 1
4 运行Spark示例 2
5 通过Spark Shell进行交互分析 3
5.1 基础操作 4
5.2 RDD的更多操作 5
5.3 缓存 6
6 SparkSQL和DataFrames 6
7 Spark Streaming 8
8 独立应用程序(Self-Contained Application) 9
8.1 应用程序代码 9
8.2 安装sbt 10
8.3 使用sbt打包Scala程序 12
8.4 通过spark-submit运行程序 13
9 进阶学习 13
附录1:任课教师介绍 13
附录2:课程教材介绍 14
附录3:中国高校大数据课程公共服务平台介绍 15
《》
主讲教师:林子雨
E-mail: ziyulin@ 个人主页:/linziyu
前言
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。此外,Spark 提供了简单易用的 API,几行代码就能实现 WordCount。本教程主要参考官网快速入门教程,介绍了 Spark 的安装,Spark shell 、RDD、Spark SQL、Spark Streaming 等的基本使用。
本教程的具体运行环境如下:
CentOS 6.4
Spark 1.6
Hadoop 2.6.0
Java JDK 1.7
Scala 2.10.5
准备工作
运行 Spark 需要 Java JDK 1.7,CentOS 6.x 系统默认只安装了 Java JRE,还需要安装 Java JDK,并配置好 JAVA_HOME 变量。此外,Spark 会用到 HDFS 与 YARN,因此请先安装 Hadoop,具体请浏览Hadoop安装教程,在此就不再复述。
安装Spark
待 Hadoop 安装好之后,我们再开始安装 Spark。官网下载地址:/downloads.html本教程选择的是 Spark 1.6.0 版本,选择 package type 为 “Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”,再点击给出的下载连接 /dyn/closer.lua/spark/spark-1.6.0/spark-1.6.0-bin-without-hadoop.tgz 就可以下载了,如下图所示:
Package type
Source code: Spark 源码,需要编译才能使用,另外 Scala 2.11 需要使用源码编译才可使用
Pre-build with user-provided Hadoop: “Hadoop free” 版,可应用到任意 Hadoop 版本
Pre-build for Hadoop 2.6 and later: 基于 Hadoop 2.6 的预先编译版,需要与本机安装的 Hadoop 版本对应。可选的还有 Hadoop 2.4 and later、Hadoop 2.3、Hadoop 1.x,以及 CDH 4。
为方便,本教程选择的是 Pre-build with user-provided Hadoop,简单配置后可应用到任意 Hadoop 版本。下载后,执行如下命令进行安装:
sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
安装后,需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath,执行如下命令拷贝一个配置文件:
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑 ./conf/spark-env.sh(vim ./conf/spark-env.sh) ,在最后面加上如下一行:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
保存后,Spark 就可以启动、运行了。
运行Spa
显示全部