Ссылка на журнал невыполненного задания Hive, отправленного в Dataproc через Airflow - PullRequest
0 голосов
/ 12 февраля 2019

Я отправил задание Hive, используя DataprocWorkflowTemplateInstantiateInlineOperator Airflow, в кластер Dataproc.При сбое некоторых заданий в заданиях googlecloud-> dataproc-> я вижу ссылку на журнал со сбоем:

Агент Google Cloud Dataproc сообщает о сбое задания.Если журналы доступны, их можно найти в 'gs: // dataproc-abcde12-efghi23-jklmn12-uk / google-cloud-dataproc-metainfo / 12354a681fgh161 / jobs / job1-abdc12jssa / driveroutput'

Могу ли я получить эту ссылку журнала (например, gs://dataproc-abcde12-efghi23-jklmn12-uk/google-cloud-dataproc-metainfo/12354a681fgh161/jobs/job1-abdc12jssa/driveroutput) через Airflow?

Я проверил оператор gcp_dataproc_hook.py для всего, что указывает на ссылку журнала, чтобы я мог получить ее,но не нашел ничего полезного.

1 Ответ

0 голосов
/ 14 марта 2019

Похоже, что еще нет автоматически созданной удобной ссылки для извлечения выходных данных в журналах Airflow, но ее, безусловно, можно добавить (если вы чувствуете себя смелым, возможно, стоит отправить запрос на извлечение в Airflow самостоятельно!запрос функции https://issues.apache.org/jira/browse/AIRFLOW).

Как правило, вы можете создать удобный URL-адрес или команду CLI для копирования / вставки, используя заданный идентификатор задания; если вы хотите использовать пользовательский интерфейс Dataproc напрямую, просто создайте URL-адрес в виде:

https://cloud.google.com/console/dataproc/jobs/%s/?project=%s&region=%s

с параметрами

jobId, projectId, region

В качестве альтернативы вы можете ввести:

gcloud dataproc jobs wait ${JOBID} --project ${PROJECTID} --region ${REGION}

Более прямой подход с URI был бы:

gsutil cat ${LOG_LINK}*

с выражением glob в конце этого URL (это не просто один файл, это набор файлов).

...