Я совершенно сбит с толку терминологией объединения в PySpark.Я перечислю, как я понимаю два из этих объединений, я просто хочу знать, правильное ли мое понимание, так как я нахожу документацию более запутанной, чем полезной.
Мы начинаем с двух фреймов данных: dfA
и dfB
.
dfA.join(dfB, 'user', 'inner')
означает объединение только тех строк, где dfA
и dfB
имеют общие элементы в пользовательском столбце.(пересечение A и B в столбце пользователя).
dfA.join(dfB, 'user', 'leftanti')
означает создание информационного кадра с элементами в dfA
ТОГО, ЧТО НЕ в dfB
.
Правильны ли эти два?