2022-04-05 0bd0c1833b79bc64dad88fe115f793b3 99+ 2 m 0.4 k0 visits

spark oom(out of memory)问题

https://blog.csdn.net/yhb315279058/article/details/51035631

https://www.cnblogs.com/yanshw/p/11988347.html

1 driver内存不够

增加 Driver 内存

1	--driver-memory MEM Memory for driver (e.g. 1000M, 2G) (Default: 1024M).

1 读入数据太大

解决思路是增加 Driver 内存

from pyspark import SparkContext
sc = SparkContext(master='yarn')
rdd = sc.parallelize(range(300000000))
# spark-submit --master yarn-client  --driver-memory 512M  driver_oom.py    内存溢出
# spark-submit --master yarn-client  --driver-memory 3G  driver_oom.py  可以执行

2 数据回传太大，也就是聚合到driver的数据太大

解决思路是分区输出，具体做法是 foreach

rdd = sc.parallelize(range(100))
rdd.flatMap(lambda x: ['%d'%x*50 for _ in range(100000)]).collect()     # 内存溢出

def func(x): print(x)
rdd.flatMap(lambda x: ['%d'%x*50 for _ in range(100000)]).foreach(func) # 分区输出

2 excutor内存不够

通用的解决办法就是增加 Executor 内存但这并不一定是最好的办法

1 map 过程产生大量对象

解决思路是减少每个 task 的大小，从而减少每个 task 的输出

具体做法是在会产生大量对象的 map 操作前添加 repartition(重新分区) 方法，分区成更小的块传入 map

rdd.flatMap(lambda x: ['%d'%x*50 for _ in range(100000000)]).count()      # 100 * 100000000 个对象，内存溢出
rdd.flatMap(lambda x: len(['%d'%x*50 for _ in range(100000000)])).sum()     # 内存溢出

rdd.repartition(1000000).flatMap(lambda x: ['%d'%x*50 for _ in range(100000000)]).count()

2 shuffle导致

shuffle内存溢出的情况可以说都是shuffle后发生数据倾斜，单个文件过大导致

参考数据倾斜解决方案

spark oom(out of memory)问题

http://example.com/2022/04/05/spark-oom/

Author

Lavine Hu

Posted on

2022-04-05

Updated on

2022-04-20

Licensed under

Alipay

Wechat

Comments

spark oom(out of memory)问题

1 driver内存不够

2 excutor内存不够

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Recents

Categories

Archives

Tags

Subscribe for updates