Какие переменные будут передавать и обновлять градиенты при параллельном распределенном обучении по тензорному потоку (режим синхронизации)?Если переменная имеет Trainable = False, означает ли это, что TensorFlow не будет передавать какие-либо данные для нее во время обучения?(За исключением того, что в первый раз одни и те же переменные распределяются по разным устройствам)
Реальная проблема, с которой я сталкиваюсь, заключается в следующем: я получил модель, которая имеет 2M обучаемых переменных и 600M все переменные (обучаемые и не обучаемые),и я хочу выяснить издержки передачи данных в «масштабировании модели на разные устройства с использованием параллельного режима передачи данных», я не знаю, связаны ли эти накладные расходы только с 2M или с 600M.
Спасибо!