1. Spark Core
- Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?
- Spark Core(二)Driver上的Task的生成、分配、调度
- Spark Core(三)Executor上是如何launch task
- Spark Core(四)用LogQuery的例子来说明Executor是如何运算RDD的算子
2. Spark Shuffle
- Spark Shuffle(一)ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去
- Spark Shuffle(二)Executor、Driver之间Shuffle结果消息传递、追踪
- Spark Shuffle(三)Executor是如何fetch shuffle的数据文件
3. Spark Storage
- Spark Storage(一) 集群下的区块管理
- Spark Storage(二) 集群下的broadcast
4. Spark Standalone 集群
- Spark Standalone 集群调度(一)从远程调试开始说application创建
- Spark Standalone 集群调度(二)如何创建、分配Executors的资源
- Spark Standalone 集群调度(三)多Master节点的可用性
5. Spark Mlib 库
- 大数据:Spark mlib KMeans聚类算法源码分析
- 大数据:Spark mlib(二) Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析
- 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现
6. Spark 算子
- 大数据:Spark 算子(一)排序算子sortByKey来看大数据平台下如何做排序
更多推荐
Spark 2.1.0 大数据平台源码分析:章节序列
发布评论