Стратегия распределения, поддерживаемая в настоящее время оценщиком train_and_evaluate, лучше всего подходит для разреженных моделей. Похоже, у вас очень глубокая модель.
Итак, чтобы максимизировать скорость обучения, попробуйте использовать одну машину (т.е. без рабочих). Чтобы минимизировать стоимость, используйте самый маленький компьютер, который соответствует размеру вашей сети.
Если вы хотите экспериментировать, попробуйте использовать работника с несколькими устройствами и добавить стратегию зеркального распространения (хотя это все еще очень ранний прототип)
https://www.tensorflow.org/versions/master/api_docs/python/tf/contrib/distribute
Наилучшим вариантом, если ваш вариант использования поддерживает его, для максимальной скорости и минимальной стоимости является использование TPU.