Это, вероятно, далеко не простой вопрос.
Но я не слишком далеко захожу сам по себе.
Я пытаюсь использовать PySpark в Databricks для SQL-эквивалента поиска:
select
a.*
, b.MASTER_ID as PLAYER_ID
from vGame a
join PLAYER_XREF b
on a.PLAYER_NAME = b.PLAYER
Обратите внимание, что два атрибута с обеих сторон on
НЕ называются одинаковыми.
Можете ли вы показать мне версию pyspark одинаковую?Мне кажется, что многочисленные тангенциальные посты здесь слишком сложны по сравнению с этим.
Я нашел это, и это действительно близко, но возвращенный фрейм данных - это все столбцы ta & tb.
inner_join = ta.join(tb, ta.name == tb.name)