Question

У меня есть ситуация, когда у меня есть фрейм данных df, и, скажем, я делаю следующие шаги:

 df1 = df

 df2 = df

и затем пишу запрос, который использует D и E в соединениях, например

df3 = df1.join(df2, df1["column"] = df2["column"])

Это не что иное, как самостоятельное соединение, которое широко необходимо в ETL. Почему спарк не справляется с этим правильно

Я видел много постов, но ни один из них не дает обходного пути.

UPdate: Если я загружаю кадры данных df1 и df2 из того же места s3, а затем выполнить соединение вопрос уходит. Но когда вы выполняете ETL, это не всегда тот случай, когда мы сохраняем данные и затем используем их, чтобы избежать этого сценария.

Есть мысли?

возникает искровое соединение «Обнаружен неявный декартовой продукт для ВНУТРЕННЕГО соединения между логическими планами»

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

возникает искровое соединение «Обнаружен неявный декартовой продукт для ВНУТРЕННЕГО соединения между логическими планами»

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов