Я читал о узких и широких зависимостях СДР, разделенных на несколько частей.
Мой вопрос: я не понимаю, почему RDD, созданные с узкими зависимостями , не требуют перестановки в сети ? ИЛИ это случайность случается, но только несколько раз?
Пожалуйста, обратитесь к диаграмме ниже -
Допустим, дочерний RDD создается с узкой зависимостью от родительского RDD, как отмечено красным прямоугольником ниже. Теперь родительский RDD имел 3 раздела, скажем (P1, P2, P3), и данные в каждом соответствующем разделе были сопоставлены и были сопоставлены с 3 другими разделами, скажем (P1, P4, P5) соответственно.
Поскольку данные в родительском разделе СДР P1 были сопоставлены с самим собой, поэтому в сети нет перестановок. Но поскольку данные из родительского раздела RDD P2 и P3 были сопоставлены с дочерними разделами RDD P4 и P5, которые являются разными разделами, естественно, данные должны пройти через сеть, чтобы соответствующие значения были помещены в P4 & P5. Итак, почему мы говорим, что в сети нет перестановок?
Посмотрите на прямоугольник зеленого цвета, это еще более сложный случай. Единственный случай, который я мог бы визуализировать, когда нет перестановки по сети, должен быть, когда родительские разделы RDD сопоставлены с собой.
Я уверен, что мои рассуждения неверны. Может ли кто-нибудь дать какое-то объяснение?
Спасибо