У меня есть ситуация, когда у меня есть фрейм данных df, и, скажем, я делаю следующие шаги:
df1 = df
df2 = df
и затем пишу запрос, который использует D и E в соединениях, например
df3 = df1.join(df2, df1["column"] = df2["column"])
Это не что иное, как самостоятельное соединение, которое широко необходимо в ETL. Почему спарк не справляется с этим правильно
Я видел много постов, но ни один из них не дает обходного пути.
UPdate: Если я загружаю кадры данных df1 и df2 из того же места s3, а затем выполнить соединение вопрос уходит. Но когда вы выполняете ETL, это не всегда тот случай, когда мы сохраняем данные и затем используем их, чтобы избежать этого сценария.
Есть мысли?