pyspark: read.parquet, пропуская пропущенные файлы - PullRequest
0 голосов
/ 10 декабря 2018

Я думаю, что этот вопрос относится к Spark: чтение файла только в том случае, если путь существует , но другой - для Scala.

Я читаю файлы из hdfs:

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

Проблема в том, что при отсутствии файла команда read сгенерирует исключение и остановится.

Можно ли пропустить read.parquet пропускотсутствующие файлы в списке search_path?

Большое спасибо

1 Ответ

0 голосов
/ 10 декабря 2018

Вы можете использовать тот же способ: использование клиента Python hdfs для проверки, является ли каталог пустым.

См. эту ссылку для дальнейшего использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...