Попытка сохранить Spark Dataframe на диск как CSV на DBFS - PullRequest
0 голосов
/ 24 октября 2019

Я нашел несколько результатов о том, как сохранить Dataframe в виде CSV на диск на платформе Databricks. Spark Dataframe сохранить как CSV Как сохранить Spark DataFrame как csv на диске?

Однако, когда я пытаюсь применить ответы к моей ситуации, это терпит неудачу. Поэтому я отправляю свой собственный вопрос по этому вопросу здесь.

Я создаю следующий Dataframe со следующим кодом:

df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

Теперь я хотел бы сохранить указанный выше кадр данных на диск.

Я пробовал следующее:

filepath = "/FileStore/tables"
df.coalesce(1).write.option("header","true").option("sep",",").mode("overwrite").csv("filepath")

Но я получаю следующую ошибку: enter image description here

Может кто-нибудь сообщить мне, где яне так?

1 Ответ

0 голосов
/ 01 ноября 2019

Обмен ответом в соответствии с комментарием оригинального автора:

"Мне удалось выяснить, почему я получаю вышеупомянутую ошибку - потому что я пытался написать в Community Edition Databricks. Всеработал нормально, когда я применил код к платной платформе Databricks ".

Ответ на вопрос по комментарию:

Может кто-нибудь сообщить мне, как переименоватьфайл на что-то более значимое?

Невозможно сделать это напрямую, чтобы изменить имя файла в сохранении Spark.

Spark использует формат файла Hadoop, который требует разделения данных на части -Вот почему у вас есть неполные файлы. Вы можете легко изменить имя файла после обработки, как в потоке SO .

Вы можете сослаться на аналогичный поток SO , в котором устранена похожая проблема.

Надеюсь, это поможет.

...