Присоединение к совместно разделенным RDD, которые также отсортированы по ключу - PullRequest
0 голосов
/ 18 июня 2020

При объединении двух RDD, которые используют один и тот же разделитель, Spark избегает перемешивания, поскольку он может напрямую объединять разделы.

Предположим, что кроме того мои RDD сортируются по ключам. Есть ли способ убедиться, что объединение разделов выполняется эффективно, путем параллельного сканирования разделов?

Насколько я могу судить, RDD API не позволяет запомнить, что RDD - это отсортировано. Наличие RangePartitioner в RDD говорит только о том, что любой ключ в заданном интервале должен находиться в указанном разделе, а не о том, что сам раздел должен быть отсортирован. API Dataframes, похоже, создает собственное сортированное соединение независимо от того, что предлагает API RDD. Это справедливая оценка ситуации?

...