Spark RDD map и mappartitions, порядок строк сгенерирован одинаково? - PullRequest
0 голосов
/ 10 сентября 2018

Что-то в строках: rdd.map (x => x x) против rdd.mapPartions (x => x.map (c => c c))

будет ли преобразованный RDD, сгенерированный в обоих случаях, одного и того же порядка?

1 Ответ

0 голосов
/ 10 сентября 2018

Да, порядок (при условии, что он является детерминированным и нет широких преобразований вверх по течению) будет таким же.map(f) - это просто сокращение для dd.mapPartions (_. Map (f)) `.

Однако в общем случае вы никогда не должны зависеть от порядка значений в RDD, если это явно не определено с помощьюоднозначный (например, сортировка по уникальным значениям) или задание состоят только из узких преобразований с источником, являющимся детерминированным форматом ввода (как тот, который используется с textFile).

...