RDD依赖关系
1 为什么要提出宽窄依赖
根据rdd的依赖关系构建dag,根据dag划分stage
2 如何区别宽窄依赖
蓝色框是rdd分区
父rdd -> 子rdd
区分宽窄依赖主要就是看父RDD数据流向,要是流向一个的话就是窄依赖,流向多个的话就是宽依赖。
3 划分stage
https://blog.csdn.net/weixin_40271036/article/details/79996516
整体思路是:从后往前推,遇到宽依赖就断开,划分为一个stage;遇到窄依赖就将这个RDD加入该stage中
4 参考
https://www.jianshu.com/p/5c2301dfa360
https://zhuanlan.zhihu.com/p/67068559
https://blog.csdn.net/m0_49834705/article/details/113111596
https://lmrzero.blog.csdn.net/article/details/106015264?spm=1001.2014.3001.5502
5 问题
为啥宽依赖有shuffle 窄依赖没有shuffle