Как проверить, является ли файл действительным gz или нет в Spark или Scala - PullRequest
0 голосов
/ 04 июня 2018

У меня есть несколько файлов в моей директории HDFS, я хочу обработать их с помощью Spark, но реальная проблема, которую я вижу, когда мой процесс сталкивается с поврежденными файлами .gz, когда есть поврежденные файлы .gz, на это уходят часызавершить этот забег.Может кто-нибудь сказать, как решить эту проблему

Как только я знаю решение не копировать поврежденный GZ или переместить все не поврежденные файлы в другое место и сделать мою работу указать на этот каталог, но мне было интересно, может ли спарк справитьсяэти сценарии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...