Автоматическое масштабирование Google Cloud DataFlow не работает - PullRequest
0 голосов
/ 24 августа 2018

Я выполняю задание потока данных, которое должно обработать 800K файлов.Идентификатор задания: 2018-08-23_07_07_46-4958738268363865409.

Сообщается, что он успешно перечислил 800 КБ файлов, но по какой-то странной причине автоскалер назначил ему только 1 работника.Поскольку скорость его обработки составляет 2 в секунду, это займет много времени.Я не трогал стандартные настройки масштабирования, которые, насколько мне известно, могут свободно масштабироваться до 100 рабочих.Почему он не масштабируется?

Спасибо,

Томер

Обновление: по совету Нери я начал новую работу (id 2018-08-29_13_47_04-1454220104656653184) иустановите autoscaling_algorithm = THROUGHPUT_BASED, хотя в соответствии с документацией он должен по умолчанию использовать этот параметр.Такое же поведениескорость обработки составляет 1 элемент в секунду, и у меня есть только один рабочий.

screenshot from web UI

Какая польза от работы в облаке, если вы не можете масштабировать?

1 Ответ

0 голосов
/ 28 августа 2018

Чтобы автоматически масштабировать задание потока данных , убедитесь, что вы используете autoscalingAlgorithm = THROUGHPUT_BASED.

Если вы используете «autoscalingAlgorithm»: «NONE», то ваше задание потока данных застрянет, даже если оно может автоматически масштабироваться.В противном случае вам нужно будет указать количество рабочих, которое вы хотите на numWorkers.

Кроме того, чтобы масштабировать до нужного количества рабочих, обязательно укажите (для numWorkers и maxNumWorkers) число, равное или меньшеесвою квоту, проверьте свою квоту, используя:

gcloud compute project-info describe
...