Spark 调优 上
本篇文章是在结合自己业务和这篇文章的基础上写的。
前言
在编写和维护一个 Spark 程序的过程中,会遇到一些相关术语:
transformation
,action
,RDD
,DataSet
,DataFrame
理解这一层次的原语对于写出一个 Spark 很重要。因为一个 Spark 程序都是由这些结构和操作构成的。
job
,stage
,task
如果想要写出一个好的 Spark 程序,理解这一层的原语就变得很重要。因为当你发现你的 Spark 程序运行得很慢或者报错了,你需要到 web UI 上查看原因,而这就是你需要理解这些术语的原因。
总之,要写出一个高效的 Spark 程序,理解其底层运行模型是至关重要的。