Question

Я использую spark 1.6 и пытаюсь записать большой Dataframe размером 11 ГБ, используя приведенную ниже инструкцию, но это дает мне объяснение, возможно, из-за большого размера раздела 2 ГБ +

Caused by: java.lang.RuntimeException: java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE


df.write.mode("append").partitionBy("audit_month").parquet("/data/sometable")

Есть ли обходной путь для этогосоздать несколько разделов внутри во время записи, но я хочу сохранить конечный результат как / data / sometable / audit_month = 08-2018 /?.

Filippo Loddo · Answer 1 · 03 мая 2019

Это работает для меня:

df.write.mode ("append"). Parquet ("/ data / sometable / audit_month =" + audit_month)

Передел в Spark во время записи с Partitionby

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Передел в Spark во время записи с Partitionby

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов