Spark 数据倾斜
https://blog.csdn.net/kaede1209/article/details/81145560
https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
发生在两个过程:
- 数据源数据不均匀
- shuffle过程中key的分布不均
- 单个rdd中进行聚合的时候key分布不均
- 多个rdd进行join过程中key的不均匀
# Related Post
1.spark oom(out of memory)问题
2.spark资源参数调优
3.Use reduceByKey instead of groupByKey
4.持久化
5.shuffle
6.spark优化
1.spark oom(out of memory)问题
2.spark资源参数调优
3.Use reduceByKey instead of groupByKey
4.持久化
5.shuffle
6.spark优化