Hadoop 中的 Join

在 Hadoop 生态体系里,对数据集的 Join 操作可能是最重要的操作之一了。因此了解 Hadoop 中的 Join 的实现原理从下面几个方面来考虑是很有必要的:

  • 在实际场景中该使用哪种 Join 策略;
  • Join 过程中遇到问题该如何 debug;
  • 更好地使用 Hive;
  • 在需要更细粒度的操作时可以手撸代码。

hadoop组合拳HDFS

当数据集数量超过单机能承受的范围时,就需要使用分布式文件系统了。但和其他分布式系统一样,由于有网络编程模型的介入,其复杂程度变得不可估量。

Hadoop 拥有一套通用的文件系统抽象逻辑,可以接入本地文件系统、Amazon S3、Ceph 等文件系统,但 HDFS 才是 Hadoop 的主要使用的分布式文件系统。

Spark 集群相关概念

编写 Spark 程序的一大好处是: 如果想要提升计算力和效率,只需要增加机器就可以了。对用户来说,只需要先在本地或者小的集群上先测试,然后不需修改任何代码就可以在生产环境执行。