Что значит сказать, что «объединения в настоящее время выполняются на основе местоположения, а не схемы»? - PullRequest
0 голосов
/ 07 апреля 2020

Я сейчас читаю Spark: полное руководство . Это очень хорошо написано.

Тем не менее, в настоящее время я читаю об операции объединения для Dataframes и столкнулся с оператором, которого я не понимаю.

Объединения в настоящее время выполняются на основе местоположение, а не на схеме. Это означает, что столбцы не будут автоматически выстраиваться так, как вы думаете.

Кто-нибудь может объяснить, что означает это утверждение? Ему дано свое собственное текстовое поле с заголовком «ПРЕДУПРЕЖДЕНИЕ» во всех заглавных буквах, так что это звучит важно.

1 Ответ

1 голос
/ 07 апреля 2020

Это означает, что объединение двух таблиц основано на расположении и порядке столбцов таблицы, а не на именах столбцов.

Представьте, что у вас есть две таблицы со следующими столбцами.

Table1:

colA | colB | colC
-----+------+------
val1a| val1b| val1c

Table2:

colA | colC | colB
-----+------+------
val2a| val2c| val2b

Объединение этих двух таблиц будет выглядеть так:

colA | colB | colC
-----+------+------
val1a| val1b| val1c
val2a| val2c| val2b

Обычно, как это В книге также указано, что для объединения двух DataFrames необходимо обеспечить одинаковую схему и количество столбцов. В противном случае союз потерпит неудачу. Мой пример Table1 и Table2 удовлетворяет этим двум требованиям, однако «расположение столбца» не совпадает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...