Question

Мне нужно передать ко многим различным сценариям и денормализовать все результаты в одну таблицу (, идеально соответствующую этому сценарию использования ), но я достиг логической головоломки в этом:

Должен ли я передавать только столбцы, необходимые для функций, к которым я подключаюсь, в результате чего получается отдельный RDD для каждого pipe результата?
Или все по конвейерутак, что pipe возвращается со всеми моими исходными столбцами - плюс только что вычисленный результат?

Я бы предпочел не на pipe больше, чем необходимые столбцы, но это оставляет меня с необходимостью zip сотни полученных RDD один за другим .

Итак, каков предназначенный способ для эффективного объединения нескольких сотен pipe результатов вединая структура данных в Spark ( без изменения базовой библиотеки )?Или я его уже нашел?

Как сжать сотни Spark RDD в один

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как сжать сотни Spark RDD в один

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы