возникает искровое соединение «Обнаружен неявный декартовой продукт для ВНУТРЕННЕГО соединения между логическими планами» - PullRequest
0 голосов
/ 16 апреля 2020

У меня есть ситуация, когда у меня есть фрейм данных df, и, скажем, я делаю следующие шаги:

 df1 = df

 df2 = df

и затем пишу запрос, который использует D и E в соединениях, например

df3 = df1.join(df2, df1["column"] = df2["column"]) 

Это не что иное, как самостоятельное соединение, которое широко необходимо в ETL. Почему спарк не справляется с этим правильно

Я видел много постов, но ни один из них не дает обходного пути.

UPdate: Если я загружаю кадры данных df1 и df2 из того же места s3, а затем выполнить соединение вопрос уходит. Но когда вы выполняете ETL, это не всегда тот случай, когда мы сохраняем данные и затем используем их, чтобы избежать этого сценария.

Есть мысли?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...