Передел в Spark во время записи с Partitionby - PullRequest
0 голосов
/ 26 августа 2018

Я использую spark 1.6 и пытаюсь записать большой Dataframe размером 11 ГБ, используя приведенную ниже инструкцию, но это дает мне объяснение, возможно, из-за большого размера раздела 2 ГБ +

Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE


df.write.mode("append").partitionBy("audit_month").parquet("/data/sometable")

Есть ли обходной путь для этогосоздать несколько разделов внутри во время записи, но я хочу сохранить конечный результат как / data / sometable / audit_month = 08-2018 /?.

1 Ответ

0 голосов
/ 03 мая 2019

Это работает для меня:

df.write.mode ("append"). Parquet ("/ data / sometable / audit_month =" + audit_month)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...