Мне нужно передать ко многим различным сценариям и денормализовать все результаты в одну таблицу (, идеально соответствующую этому сценарию использования ), но я достиг логической головоломки в этом:
- Должен ли я передавать только столбцы, необходимые для функций, к которым я подключаюсь, в результате чего получается отдельный
RDD
для каждого pipe
результата? - Или все по конвейерутак, что
pipe
возвращается со всеми моими исходными столбцами - плюс только что вычисленный результат?
Я бы предпочел не на pipe
больше, чем необходимые столбцы, но это оставляет меня с необходимостью zip сотни полученных RDD один за другим .
Итак, каков предназначенный способ для эффективного объединения нескольких сотен pipe
результатов вединая структура данных в Spark ( без изменения базовой библиотеки )?Или я его уже нашел?