Чтение CSV-файла, написанного Dataframewriter Pyspark - PullRequest
0 голосов
/ 16 февраля 2019

У меня был фрейм данных, который я записал в CSV, используя следующий код:

df.write.format("csv").save(base_path+"avg.csv")

Поскольку я запускаю искру в режиме клиента, приведенные выше фрагменты создали имя папки avg.csv, и папка содержит некоторыефайл с part- * .csv на моем рабочем узле или во вложенной папке, затем файл part - *. csv.

Теперь, когда я пытаюсь прочитать avg.csv, я получаю, что путь не существует.

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

Кто-нибудь может сказать, где я не так делаю?

1 Ответ

0 голосов
/ 16 февраля 2019
Файлы

Part-00** выводятся из файлов с распределенным вычислением (например, MR, spark).Таким образом, при попытке сохранить это всегда будет папка, созданная с файлами деталей, поскольку это вывод некоторого распределенного хранилища, о котором следует помнить.

Итак, попробуйте использовать:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...