У меня есть кластер узлов 13. Я тестирую TensorflowOnSpark в своей кластерной среде с использованием Keras api. Вот ссылка на github для примера Keras с использованием TensroflowOnSpark
Я скачал предоставленный ими пример кода и отправил задание на мастер-узел.Он успешно выполняет работу.Но он использует только мастер-IP и запускает задание на разных номерах портов мастера (пример: мастер: 172.9.9.9: 1029, работник: 172.9.9.9: 1208 и т. Д.).
Это команда, которую я использовалпоскольку сейчас я хочу использовать 10 узлов для тестирования.
~]$ spark-submit mnist_mlp.py --cluster_size 10
Я только что передал аргумент cluster_size и проигнорировал остальные аргументы, упомянутые в примере кода, так как они являются необязательными аргументами
Можеткто-нибудь подскажет, как использовать весь кластер (все узлы) для обучения mnist.