文档详情

Spark 编程指南简体中文版.pdf

发布:2019-03-23约15.43万字共119页下载文档
文本预览下载声明
目 录 Introduction 快速上手 Spark Shell 独立应用程序 开始翻滚吧! 编程指南 引入 Spark 初始化 Spark Spark RDDs 并行集合 外部数据集 RDD 操作 RDD持久化 共享变量 从这里开始 Spark Streaming 一个快速的例子 基本概念 关联 初始化StreamingContext 离散流 输入DStreams DStream中的转换 DStream的输出操作 缓存或持久化 Checkpointing 部署应用程序 监控应用程序 性能调优 减少批数据的执行时间 设置正确的批容量 内存调优 容错语义 Spark SQL 开始 数据源 RDDs parquet文件 JSON数据集 本文档使用 看云 构建 - 2 - Hive表 性能调优 其它SQL接口 编写语言集成(Language-Integrated)的相关查询 Spark SQL数据类型 GraphX编程指南 开始 属性图 图操作符 Pregel API 图构造者 顶点和边RDDs 图算法 例子 提交应用程序 独立运行Spark 在yarn上运行Spark Spark配置 本文档使用 看云 构建 - 3 - Introduction Introduction Spark 编程指南简体中文版 本书出处 :http//endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/ Copyright 本文翻译自Spark 官方文档 License 本文使用的许可请查看这里 本文档使用 看云 构建 - 4 - 快速上手 快速上手 快速上手 本节课程提供一个使用 Spark 的快速介绍 ,首先我们使用 Spark 的交互式 shell(用 Python 或 Scala) 介 绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时 ,看编程指南里完整的参考。 依照这个指南 ,首先从 Spark 网站下载一个 Spark 发行包。因为我们不会使用 HDFS ,你可以下载任何 Hadoop 版本的包。 Spark Shell 独立应用程序 开始翻滚吧! 本文档使用 看云 构建 - 5 - Spark Shell Spark Shell 使用 Spark Shell 基础 Spark 的 shell 作为一个强大的交互式数据分析工具 ,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方 式开始运行 : ./bin/spark-shell Spark 最主要的抽象是叫Resilient Dist
显示全部
相似文档