Question

У меня есть несколько файлов в моей директории HDFS, я хочу обработать их с помощью Spark, но реальная проблема, которую я вижу, когда мой процесс сталкивается с поврежденными файлами .gz, когда есть поврежденные файлы .gz, на это уходят часызавершить этот забег.Может кто-нибудь сказать, как решить эту проблему

Как только я знаю решение не копировать поврежденный GZ или переместить все не поврежденные файлы в другое место и сделать мою работу указать на этот каталог, но мне было интересно, может ли спарк справитьсяэти сценарии.

Как проверить, является ли файл действительным gz или нет в Spark или Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как проверить, является ли файл действительным gz или нет в Spark или Scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов