Question

Я выполняю задание потока данных, которое должно обработать 800K файлов.Идентификатор задания: 2018-08-23_07_07_46-4958738268363865409.

Сообщается, что он успешно перечислил 800 КБ файлов, но по какой-то странной причине автоскалер назначил ему только 1 работника.Поскольку скорость его обработки составляет 2 в секунду, это займет много времени.Я не трогал стандартные настройки масштабирования, которые, насколько мне известно, могут свободно масштабироваться до 100 рабочих.Почему он не масштабируется?

Спасибо,

Томер

Обновление: по совету Нери я начал новую работу (id 2018-08-29_13_47_04-1454220104656653184) иустановите autoscaling_algorithm = THROUGHPUT_BASED, хотя в соответствии с документацией он должен по умолчанию использовать этот параметр.Такое же поведениескорость обработки составляет 1 элемент в секунду, и у меня есть только один рабочий.

Какая польза от работы в облаке, если вы не можете масштабировать?

Neri · Answer 1 · 28 августа 2018

Чтобы автоматически масштабировать задание потока данных , убедитесь, что вы используете autoscalingAlgorithm = THROUGHPUT_BASED.

Если вы используете «autoscalingAlgorithm»: «NONE», то ваше задание потока данных застрянет, даже если оно может автоматически масштабироваться.В противном случае вам нужно будет указать количество рабочих, которое вы хотите на numWorkers.

Кроме того, чтобы масштабировать до нужного количества рабочих, обязательно укажите (для numWorkers и maxNumWorkers) число, равное или меньшеесвою квоту, проверьте свою квоту, используя:

gcloud compute project-info describe

Автоматическое масштабирование Google Cloud DataFlow не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Автоматическое масштабирование Google Cloud DataFlow не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы