Мой вопрос может быть похож на некоторые другие вопросы по stackoverflow, но он немного отличается.
У меня очень большой фрейм данных PysPark (около 40 миллионов строк и 30 столбцов).Я собираюсь экспортировать файл как CSV
файл.Я пробовал разные способы, но получил ошибки для всех из них.
До сих пор я пробовал:
df.repartition(1).write.save(path='the path and name of the file.csv', format='csv', mode='overwrite', header='true')
и
df.toPandas().to_csv('path and the name of the file.csv', index=False)
Это работает около 1 часа, а затем я получаю следующие ошибки для них обоих:
y4JJavaError Traceback (most recent call last)
<ipython-input-117-040553681ce4> in <module>
.
.
.
Py4JJavaError: An error occurred while calling o666.save.
: org.apache.spark.SparkException: Job aborted.
Пожалуйста, дайте мне знать, если есть какой-либо другой способ выполнить эту задачу для больших фреймов данных, которые тоже бывают быстрыми.
Я использую python3.7.1
, pyspark2.4
и jupyter4.4.0