Во время работы SQL-конвейеров pySpark через Airflow я заинтересован в получении некоторой бизнес-статистики, такой как:
- исходный счетчик чтения
- количество записей назначения
- размеры ДФ при обработке
- Количество записей об ошибках
Одна из идей состоит в том, чтобы поместить его непосредственно в метрики, чтобы он автоматически использовался инструментами мониторинга, такими как Prometheus. Другая идея состоит в том, чтобы получить эти значения через некоторый объект результата DAG, но я не смог ничего найти об этом в документации.
Пожалуйста, напишите хотя бы псевдокод, если у вас есть решение.