Может ли Spark игнорировать сбой задачи из-за проблемы с данными учетной записи и продолжить процесс задания для других учетных записей? - PullRequest
0 голосов
/ 22 сентября 2019

Я хочу, чтобы spark игнорировал некоторые неудачные задачи из-за проблем с данными.Кроме того, я хочу, чтобы спарк не останавливал всю работу из-за некоторых ошибок вставки.

1 Ответ

0 голосов
/ 22 сентября 2019

если вы используете блоки данных, вы можете обрабатывать плохие записи и файлы, как описано в этой статье.https://docs.databricks.com/spark/latest/spark-sql/handling-bad-records.html

Из документации:

Блок данных обеспечивает унифицированный интерфейс для обработки неверных записей и файлов без прерывания заданий Spark.Вы можете получить записи / файлы и причины исключений из журналов исключений, установив параметр источника данных badRecordsPath.badRecordsPath указывает путь для хранения файлов исключений для записи информации о неверных записях для источников CSV и JSON и плохих файлах для всех встроенных источников на основе файлов (например, Parquet).

Youтакже может использовать некоторую библиотеку для очистки данных, такую ​​как Pandas, Optimus, sparkling.data, spark vanilla, dora и т. д. Это даст вам представление о неверных данных и позволит вам исправить ваши данные перед выполнением анализа.

...