Question

У меня был фрейм данных, который я записал в CSV, используя следующий код:

df.write.format("csv").save(base_path+"avg.csv")

Поскольку я запускаю искру в режиме клиента, приведенные выше фрагменты создали имя папки avg.csv, и папка содержит некоторыефайл с part- * .csv на моем рабочем узле или во вложенной папке, затем файл part - *. csv.

Теперь, когда я пытаюсь прочитать avg.csv, я получаю, что путь не существует.

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

Кто-нибудь может сказать, где я не так делаю?

Jim Todd · Answer 1 · 16 февраля 2019

Файлы

Part-00** выводятся из файлов с распределенным вычислением (например, MR, spark).Таким образом, при попытке сохранить это всегда будет папка, созданная с файлами деталей, поскольку это вывод некоторого распределенного хранилища, о котором следует помнить.

Итак, попробуйте использовать:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

Чтение CSV-файла, написанного Dataframewriter Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение CSV-файла, написанного Dataframewriter Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов