Question

Я хочу знать среди union () и full_outer_join в Spark, что лучше всего с точки зрения производительности. Чтобы продемонстрировать, рассмотрите приведенные ниже 2 таблицы:

При полном внешнем соединении: и в Union () также тот же результат:

Примечание. Я протестировал производительность более чем на 100 000 строк. я заметил, что полное внешнее соединение на таком большом фрейме данных работает лучше, чем union (), но я хочу знать, почему это так? как мы уже знаем, union () не выполняет перетасовки данных, но операция соединения в Spark выполняет перетасовку. Следовательно, соединение должно быть более дорогостоящим.

Также я заметил, что при меньшем количестве наборов данных union () и полное внешнее соединение работают почти так же.

Любая помощь / понимание было бы замечательно.

что лучше по производительности union () или full_outer_join в Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

что лучше по производительности union () или full_outer_join в Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы