Получить журналы Dataproc для ведения журнала Stackdriver - PullRequest
0 голосов
/ 28 января 2019

Я запускаю Dataproc и отправляю Spark Jobs, используя значение по умолчанию client-mode.Журналы заданий видны в консоли GCP и доступны в корзине GCS.Тем не менее, я хотел бы видеть журналы в Stackdriver Logging .

В настоящее время я нашел единственный способ использовать cluster-mode.

Есть ли способпроталкивать логи в Stackdriver при использовании client-mode?

1 Ответ

0 голосов
/ 29 января 2019

Это то, над чем команда Dataproc активно работает, и вскоре у вас должно быть решение.Если вы хотите подать запрос на общедоступную функцию для отслеживания этого, это вариант, но я постараюсь обновить этот ответ, когда эта функция будет использоваться вами.

Немного углубившись в это, причина, по которой вы можете это сделатьПосмотрите журналы при использовании кластерного режима: у нас есть конфигурации Fluentd, которые по умолчанию собирают журналы контейнеров YARN (пользовательские журналы).При работе в режиме кластера драйвер работает в контейнере YARN, и эти журналы выбираются этой конфигурацией.

В настоящее время выходные данные, полученные драйвером, перенаправляются агентом Dataproc непосредственно в GCS.В будущем будет возможность отправлять все выходные данные драйвера в Stackdriver при запуске кластера.

Обновление:

Эта функция теперь в бета-версии и стабильна в использовании.При создании кластера можно использовать свойство «dataproc: dataproc.logging.stackdriver.job.driver.enable», чтобы указать, будет ли кластер отправлять журналы драйверов заданий в Stackdriver.Кроме того, вы можете использовать свойство "dataproc: dataproc.logging.stackdriver.job.yarn.container.enable", чтобы кластер связывал журналы контейнеров YARN с заданием, с которым они были созданы, вместо кластера, на котором они выполнялись.

Документация доступна здесь

...