Обновление Apache Beam Python SDK до версии 2.11.0.
Я обновляю sdk с 2.4.0 до 2.11.0, используя require.txt. У него есть зависимости, как показано ниже:
apache_beam==2.11.0
google-cloud-dataflow==2.4.0
httplib2==0.11.3
google-cloud==0.27.0
google-cloud-storage==1.3.0
workflow
Для управления зависимостями в конвейере лучей у нас есть этот текстовый файл. Есть два экземпляра виртуальной машины на Google Compute Engine, один мастер, другой работник. Эти экземпляры установят все пакеты, указанные в файле needs.txt.
Задания выполняются через DataflowRunner. Если вы запускаете код вручную, используя команду как
python code.py --project --setupFilePath --requirementFilePath --workerMachineType n1-standard-8 --runner DataflowRunner.
Задание не обновляет версию до 2.11.0, скорее оно терпит неудачу. Сообщение об ошибке в журналах стека-драйверов:
2019-03-26 19:02:02.000 IST
Failed to install packages: failed to install requirements: exit status 1
Expand all | Collapse all {
insertId: "27857323862365974846:1225647:0:438995"
jsonPayload: {
line: "boot.go:144"
message: "Failed to install packages: failed to install requirements: exit status 1"
}
labels: {
compute.googleapis.com/resource_id: "278567544395974846"
compute.googleapis.com/resource_name: "icf-20190334132038-03260625-b9fa-harness-gtml"
compute.googleapis.com/resource_type: "instance"
dataflow.googleapis.com/job_id: "2019-03-26_06_25_16-6068768320191854196"
dataflow.googleapis.com/job_name: "icf-20190326132038"
dataflow.googleapis.com/region: "global"
}
logName: "projects/project-id/logs/dataflow.googleapis.com%2Fworker-startup"
receiveTimestamp: "2019-03-26T13:32:07.627920858Z"
resource: {
labels: {
job_id: "2019-03-26_06_25_16-6068768320191854196"
job_name: "icf-20190326132038"
project_id: "project-id"
region: "global"
step_id: ""
}
type: "dataflow_step"
}
severity: "CRITICAL"
timestamp: "2019-03-26T13:32:02Z"
}
Примечание: при запуске pip установите apache-beam == 2.11.0 как на работнике, так и на мастере, код запускается. *