Question

Имеют два DataFrame - DF1 и DF2 .. Из DF1 есть уникальный идентификатор, называемый ключом, а у другого DF -DF2 есть один или несколько ключей, которые нам нужно сопоставить с df1 (ключ) == df2 (ключ). оба DF имеют более 1 миллиона записей. Я знаю, что при подключении произойдет перемешивание. В rdd у нас есть опция под названием rdd.partitionBy (новый HashPat. (50)). Без перемешивания есть возможность реализовать узкую зависимость,

Spark DataFrame - условие соединения. Уделите больше времени на выполнение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark DataFrame - условие соединения. Уделите больше времени на выполнение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы