Spark 1.6 - Альтернативное решение для работы Unionall? - PullRequest
0 голосов
/ 05 мая 2020

Имейте 4 DF с именами df1, df2, df3 и df4. Все DF имеют один и тот же тип схемы. Требование - мне нужно объединить все DF. Итак,

val res1 = df1.unionAll(df2).unionAll(df3).unionAll(df4).distinct() 

Получение ненулевого выхода 143. У вас есть лучшее решение, чтобы переписать приведенный выше код. Каждый df имеет> 20 M записей

1 Ответ

0 голосов
/ 27 мая 2020

Я пробовал аналогичную команду, и она у меня работает, так что с командой все в порядке.

Вы упомянули, что код выхода 143 связан с Java кучей? Если да, то вы можете попробовать увеличить размер кластера и посмотреть, поможет ли это. Если нет, пожалуйста, поделитесь полным текстом ошибки /

...