что лучше по производительности union () или full_outer_join в Spark? - PullRequest
2 голосов
/ 16 июня 2020

Я хочу знать среди union () и full_outer_join в Spark, что лучше всего с точки зрения производительности. Чтобы продемонстрировать, рассмотрите приведенные ниже 2 таблицы:

При полном внешнем соединении: figure_link_1 и в Union () также тот же результат: figure_link_2

Примечание. Я протестировал производительность более чем на 100 000 строк. я заметил, что полное внешнее соединение на таком большом фрейме данных работает лучше, чем union (), но я хочу знать, почему это так? как мы уже знаем, union () не выполняет перетасовки данных, но операция соединения в Spark выполняет перетасовку. Следовательно, соединение должно быть более дорогостоящим.

Также я заметил, что при меньшем количестве наборов данных union () и полное внешнее соединение работают почти так же.

Любая помощь / понимание было бы замечательно.

...