pyspark - захватывает искаженное имя файла JSON после сбоя загрузки с опцией FAILFAST - PullRequest
0 голосов
/ 26 апреля 2018

Чтобы обнаружить неправильно сформированный / поврежденный / неполный файл JSON, я использовал опцию FAILFAST, чтобы процесс не удался. Как мне получить поврежденное имя файла из файлов 100s, потому что мне нужно удалить этот файл из пути и скопировать хорошую версию файла из корзины s3?

df = spark_session.read.json(table.load_path, mode='FAILFAST').cache()

...