Как сжать сотни Spark RDD в один - PullRequest
0 голосов
/ 22 мая 2019

Мне нужно передать ко многим различным сценариям и денормализовать все результаты в одну таблицу (, идеально соответствующую этому сценарию использования ), но я достиг логической головоломки в этом:

  • Должен ли я передавать только столбцы, необходимые для функций, к которым я подключаюсь, в результате чего получается отдельный RDD для каждого pipe результата?
  • Или все по конвейерутак, что pipe возвращается со всеми моими исходными столбцами - плюс только что вычисленный результат?

Я бы предпочел не на pipe больше, чем необходимые столбцы, но это оставляет меня с необходимостью zip сотни полученных RDD один за другим .

Итак, каков предназначенный способ для эффективного объединения нескольких сотен pipe результатов вединая структура данных в Spark ( без изменения базовой библиотеки )?Или я его уже нашел?

...