Как обрабатывать ошибки в Glue и писать в файл - PullRequest
0 голосов
/ 10 января 2020

Я разработал несколько склеивающих заданий для чтения данных из Athena / DataCatalog (несколько таблиц), объединения этих таблиц и выполнения некоторых преобразований внутри склеивающего задания с использованием фрейма искровых данных и динамического c фрейма. И, наконец, записать набор данных в промежуточную таблицу в красное смещение. Процесс все в порядке и работает. Теперь мы хотели бы реализовать ведение журналов внутри рабочих мест, чтобы облегчить дальнейшую поддержку. Журналы наблюдения за облаком очень обобщенные c, и для устранения проблем, связанных с данными, необязательно много информации.

Я использую log4j, но не знаю, как использовать его для отслеживания проблем, связанных с данными.

Моя цель - получить файл журнала, который будет полезен для устранения неполадок без необходимости go просматривать тысячи записей журнала. Ниже приведены вопросы, которые у меня есть:

  1. Как писать собственные журналы в заданиях на клей и выводить в текстовый файл?
  2. Как отслеживать проблемы качества данных и обработки ошибок? Например: SQL проблемы приведения, длина превышает проблемы и т. Д. c
  3. Есть ли способ включить порог ошибки и выполнить задание после достижения порогового уровня или в процентах?
...