宽窄依赖那部分的认识有点问题,如果窄依赖里有多对多依赖,那么就说不通物理执行计划生成的stage划分,因为多对多依赖也会引入task重复执行的问题。还是推荐使用父RDD的分区是否被多个子RDD的分区所依赖来判断宽窄依赖,更符合物理执行计划的生成。
宽窄依赖那部分的认识有点问题,如果窄依赖里有多对多依赖,那么就说不通物理执行计划生成的stage划分,因为多对多依赖也会引入task重复执行的问题。还是推荐使用父RDD的分区是否被多个子RDD的分区所依赖来判断宽窄依赖,更符合物理执行计划的生成。 |
> 去大数据处理框架Apache Spark设计与实现(全彩)的论坛
> 我来回应