У меня есть несколько файлов в моей директории HDFS, я хочу обработать их с помощью Spark, но реальная проблема, которую я вижу, когда мой процесс сталкивается с поврежденными файлами .gz, когда есть поврежденные файлы .gz, на это уходят часызавершить этот забег.Может кто-нибудь сказать, как решить эту проблему
Как только я знаю решение не копировать поврежденный GZ или переместить все не поврежденные файлы в другое место и сделать мою работу указать на этот каталог, но мне было интересно, может ли спарк справитьсяэти сценарии.