Spark 数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560

https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

发生在两个过程:

  1. 数据源数据不均匀
  2. shuffle过程中key的分布不均
    1. 单个rdd中进行聚合的时候key分布不均
    2. 多个rdd进行join过程中key的不均匀
Author

Lavine Hu

Posted on

2022-01-20

Updated on

2022-04-20

Licensed under

Comments

:D 一言句子获取中...