Spark DataFrame - условие соединения. Уделите больше времени на выполнение - PullRequest
0 голосов
/ 05 мая 2020

Имеют два DataFrame - DF1 и DF2 .. Из DF1 есть уникальный идентификатор, называемый ключом, а у другого DF -DF2 есть один или несколько ключей, которые нам нужно сопоставить с df1 (ключ) == df2 (ключ). оба DF имеют более 1 миллиона записей. Я знаю, что при подключении произойдет перемешивание. В rdd у нас есть опция под названием rdd.partitionBy (новый HashPat. (50)). Без перемешивания есть возможность реализовать узкую зависимость,

...