Это то, над чем команда Dataproc активно работает, и вскоре у вас должно быть решение.Если вы хотите подать запрос на общедоступную функцию для отслеживания этого, это вариант, но я постараюсь обновить этот ответ, когда эта функция будет использоваться вами.
Немного углубившись в это, причина, по которой вы можете это сделатьПосмотрите журналы при использовании кластерного режима: у нас есть конфигурации Fluentd, которые по умолчанию собирают журналы контейнеров YARN (пользовательские журналы).При работе в режиме кластера драйвер работает в контейнере YARN, и эти журналы выбираются этой конфигурацией.
В настоящее время выходные данные, полученные драйвером, перенаправляются агентом Dataproc непосредственно в GCS.В будущем будет возможность отправлять все выходные данные драйвера в Stackdriver при запуске кластера.
Обновление:
Эта функция теперь в бета-версии и стабильна в использовании.При создании кластера можно использовать свойство «dataproc: dataproc.logging.stackdriver.job.driver.enable», чтобы указать, будет ли кластер отправлять журналы драйверов заданий в Stackdriver.Кроме того, вы можете использовать свойство "dataproc: dataproc.logging.stackdriver.job.yarn.container.enable", чтобы кластер связывал журналы контейнеров YARN с заданием, с которым они были созданы, вместо кластера, на котором они выполнялись.
Документация доступна здесь