Question

Я читаю файлы из hdfs:

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

Проблема в том, что при отсутствии файла команда read сгенерирует исключение и остановится.

Можно ли пропустить read.parquet пропускотсутствующие файлы в списке search_path?

Большое спасибо

suesun · Answer 1 · 10 декабря 2018

Вы можете использовать тот же способ: использование клиента Python hdfs для проверки, является ли каталог пустым.

См. эту ссылку для дальнейшего использования.

pyspark: read.parquet, пропуская пропущенные файлы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.