если вы используете блоки данных, вы можете обрабатывать плохие записи и файлы, как описано в этой статье.https://docs.databricks.com/spark/latest/spark-sql/handling-bad-records.html
Из документации:
Блок данных обеспечивает унифицированный интерфейс для обработки неверных записей и файлов без прерывания заданий Spark.Вы можете получить записи / файлы и причины исключений из журналов исключений, установив параметр источника данных badRecordsPath.badRecordsPath указывает путь для хранения файлов исключений для записи информации о неверных записях для источников CSV и JSON и плохих файлах для всех встроенных источников на основе файлов (например, Parquet).
Youтакже может использовать некоторую библиотеку для очистки данных, такую как Pandas, Optimus, sparkling.data, spark vanilla, dora и т. д. Это даст вам представление о неверных данных и позволит вам исправить ваши данные перед выполнением анализа.