Spark: пропустить отсутствующие файлы S3 - PullRequest
0 голосов
/ 12 октября 2018

Можно ли настроить spark (версия 2.3.1) для пропуска отсутствующих файлов s3.Прямо сейчас он выдает org.apache.hadoop.mapred.InvalidInputException.

. В последней версии spark есть опция конфигурации, которая позволяет легко это сделать.Хотите знать, как это сделать для более старых версий, у которых пока нет этой опции конфигурации.Вот как я читаю входные данные, где csvFiles - это массив CSV-файлов, размещенных на s3.

var filesRdd = sparkContext.textFile(csvFiles.mkString(","))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...