Как я могу экспортировать очень большой файл данных PySpark в виде файла CSV? - PullRequest
0 голосов
/ 20 января 2019

Мой вопрос может быть похож на некоторые другие вопросы по stackoverflow, но он немного отличается.

У меня очень большой фрейм данных PysPark (около 40 миллионов строк и 30 столбцов).Я собираюсь экспортировать файл как CSV файл.Я пробовал разные способы, но получил ошибки для всех из них.

До сих пор я пробовал:

df.repartition(1).write.save(path='the path and name of the file.csv', format='csv', mode='overwrite', header='true')

и

df.toPandas().to_csv('path and the name of the file.csv', index=False)

Это работает около 1 часа, а затем я получаю следующие ошибки для них обоих:

y4JJavaError  Traceback (most recent call last)
<ipython-input-117-040553681ce4> in <module>
.
.
.
Py4JJavaError: An error occurred while calling o666.save.
: org.apache.spark.SparkException: Job aborted.

Пожалуйста, дайте мне знать, если есть какой-либо другой способ выполнить эту задачу для больших фреймов данных, которые тоже бывают быстрыми.

Я использую python3.7.1, pyspark2.4 и jupyter4.4.0

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...