spark编程指南 pdf 下载-spark编程指南中文版下载-绿色资源网

软件介绍

软件标签: spark编程指南 spark教程

spark编程指南 pdf是一部非常实用的spark教程，这部电子书详细讲解了spark编程方法以及技巧，能够让你快速入门，需要的朋友欢迎来绿色资源网免费下载！

spark编程指南pdf

Spark编程指南电子书介绍

总体上来说，每个Spark应用都包含一个驱动器（driver）程序，驱动器运行用户的main函数，并在集群上执行各种并行操作。

Spark最重要的一个抽象概念就是弹性分布式数据集（resilient distributed dataset – RDD），RDD是一个可分区的元素集合，其包含的元素可以分布在集群各个节点上，并且可以执行一些分布式并行操作。RDD通常是通过，HDFS（或者其他Hadoop支持的文件系统）上的文件，或者驱动器中的Scala集合对象，来创建或转换得到；其次，用户也可以请求Spark将RDD持久化到内存里，以便在不同的并行操作里复用之；最后，RDD具备容错性，可以从节点失败中自动恢复数据。

Spark第二个重要抽象概念是共享变量，共享变量是一种可以在并行操作之间共享使用的变量。默认情况下，当Spark把一系列任务调度到不同节点上运行时，Spark会同时把每个变量的副本和任务代码一起发送给各个节点。但有时候，我们需要在任务之间，或者任务和驱动器之间共享一些变量。Spark提供了两种类型的共享变量：广播变量和累加器，广播变量可以用来在各个节点上缓存数据，而累加器则是用来执行跨节点的“累加”操作，例如：计数和求和。

Spark编程指南pdf目录

1. Introduction

2. 快速上手

i. SparkShell

ii. 独立应用程序

iii. 开始翻滚吧!

3. 编程指南

i. 引入Spark

ii. 初始化Spark

iii. SparkRDDs

i. 并行集合

ii. 外部数据集

iii. RDD操作

i. 传递函数到Spark

ii. 使用键值对

iii. Transformations

iv. Actions

iv. RDD持久化

iv. 共享变量

v. 从这里开始

4. SparkStre

i. 一个快速的例子

ii. 基本概念

i. 关联

ii. 初始化StreamingContext

iii. 离散流

iv. 输入DStreams

v. DStream中的转换

vi. DStream的输出操作

vii. 缓存或持久化

viii. Checkpointing

ix. 部署应用程序

x. 监控应用程序

iii. 性能调优

i. 减少批数据的执行时间

ii. 设置正确的批容量

iii. 内存调优

iv. 容错语义

5. SparkSQL

i. 开始

ii. 数据源

i. RDDs

ii. parquet文件

iii. JSON数据集

iv. Hive表

iii. 性能调优

iv. 其它SQL接口

v. 编写语言集成(Language-Integrated)的相关查询

vi. SparkSQL数据类型

6. GraphX编程指南

i. 开始

ii. 属性图

iii. 图操作符

TableofContentsiv. PregelAPI

v. 图构造者

vi. 顶点和边RDDs

vii. 图算法

viii. 例子

7. 部署

i. 提交应用程序

ii. 独立运行Spark

iii. 在yarn上运行Spark

8. 更多文档

i. Spark配置

软件截图

上一张下一张(1 / 1)

安装详细截图

下载地址电脑版

spark编程指南中文版

点击报错软件无法下载或下载后无法使用，请点击报错，谢谢！

关闭报错反馈

请描述您所遇到的错误，我们将尽快予以修正，谢谢！

*必填项，请输入内容

spark编程指南中文版

同类相关软件

厦门绘玩编程 v3.9 安卓版

浮云识音软件官方版 v1.5.9 最新版

学习强企官方 v1.0 安卓版

喜书郎电话手表ipad版客户端 v3.1.3 ios越狱版

虾米音乐ipad客户端 v8.1.5 苹果ios版

软件介绍

Spark编程指南电子书介绍

Spark编程指南pdf目录

软件截图

下载地址电脑版

spark编程指南中文版

关闭报错反馈

用户评论

热门评论

最新评论

发表评论查看所有评论(0)

Spark编程指南电子书介绍

Spark编程指南pdf目录

spark编程指南中文版

关闭报错反馈

热门评论

最新评论

发表评论 查看所有评论(0)

发表评论查看所有评论(0)