Реализовать ведение журнала в трубопроводах EMR - PullRequest
0 голосов
/ 31 января 2019

У меня есть конвейер данных, который извлекает данные из источника HDFS, выполняет очистку и незначительное преобразование данных перед их загрузкой в ​​корзину нашей команды s3.Он реализован в Pyspark.

Мой текущий подход к ведению журнала заключается в открытии файла в каталоге / tmp и написании пользовательских сообщений.После завершения итерации я загружаю файл в папку журналов s3.Это работает, но я хочу понять, какова стандартная практика для ведения журналов в приложениях EMR.

1 - Какой лучший способ написать пользовательские журналы из кода Pyspark и загрузить их обратно на s3.

2 - Что касается стандартных журналов искры, я настроил для свойств log4j значение WARN.Какова стандартная практика для записи спарк-журналов в другую папку s3 и какие конкретные сообщения я собираю (вместо того, чтобы захватывать все сообщения журнала) со всех рабочих узлов.

Спасибо!

...