Question

Можно ли настроить spark (версия 2.3.1) для пропуска отсутствующих файлов s3.Прямо сейчас он выдает org.apache.hadoop.mapred.InvalidInputException.

. В последней версии spark есть опция конфигурации, которая позволяет легко это сделать.Хотите знать, как это сделать для более старых версий, у которых пока нет этой опции конфигурации.Вот как я читаю входные данные, где csvFiles - это массив CSV-файлов, размещенных на s3.

var filesRdd = sparkContext.textFile(csvFiles.mkString(","))

Spark: пропустить отсутствующие файлы S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark: пропустить отсутствующие файлы S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов