Spark - игнорирование поврежденных файлов - PullRequest
0 голосов
/ 29 ноября 2018

В процессе ETL, которым мы управляем, мы получаем иногда поврежденные файлы.Мы попробовали эту конфигурацию Spark, и, похоже, она работает (задание Spark не завершается сбоем, поскольку поврежденные файлы отбрасываются):

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "true")

Но я не знаю, есть ли возможность узнать, какие файлы были проигнорированы,В любом случае, чтобы получить эти имена файлов?

Заранее спасибо

1 Ответ

0 голосов
/ 06 июня 2019

Вы решили это?

Если нет, может быть, вы можете попробовать следующий подход:

  1. Считать все из местоположения с этим параметром ignoreCorruptFiles
  2. Вы можете получить имена файлов, к которым относится каждая запись, используя input_file_name UDF.Получите разные имена.
  3. Отдельно получите список всех объектов в соответствующем каталоге
  4. Найдите разницу.

Использовали ли вы другой подход?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...