1. Spark Core


  • Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?
  • Spark Core(二)Driver上的Task的生成、分配、调度
  • Spark Core(三)Executor上是如何launch task
  • Spark Core(四)用LogQuery的例子来说明Executor是如何运算RDD的算子

2. Spark Shuffle


  • Spark Shuffle(一)ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去
  • Spark Shuffle(二)Executor、Driver之间Shuffle结果消息传递、追踪
  • Spark Shuffle(三)Executor是如何fetch shuffle的数据文件

3. Spark Storage


  • Spark Storage(一) 集群下的区块管理
  • Spark Storage(二) 集群下的broadcast

4. Spark Standalone 集群


  • Spark Standalone 集群调度(一)从远程调试开始说application创建
  • Spark Standalone 集群调度(二)如何创建、分配Executors的资源
  • Spark Standalone 集群调度(三)多Master节点的可用性

5.  Spark Mlib 库

  • 大数据:Spark mlib KMeans聚类算法源码分析
  • 大数据:Spark mlib(二) Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析
  • 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现

6.  Spark 算子

  • 大数据:Spark 算子(一)排序算子sortByKey来看大数据平台下如何做排序

更多推荐

Spark 2.1.0 大数据平台源码分析:章节序列