Я хочу знать среди union () и full_outer_join в Spark, что лучше всего с точки зрения производительности. Чтобы продемонстрировать, рассмотрите приведенные ниже 2 таблицы:
При полном внешнем соединении: и в Union () также тот же результат:
Примечание. Я протестировал производительность более чем на 100 000 строк. я заметил, что полное внешнее соединение на таком большом фрейме данных работает лучше, чем union (), но я хочу знать, почему это так? как мы уже знаем, union () не выполняет перетасовки данных, но операция соединения в Spark выполняет перетасовку. Следовательно, соединение должно быть более дорогостоящим.
Также я заметил, что при меньшем количестве наборов данных union () и полное внешнее соединение работают почти так же.
Любая помощь / понимание было бы замечательно.