Подготовка и загрузка данных в распределенном обучении Tensorflow - PullRequest
1 голос
/ 21 апреля 2019

Предположим, что CNN ResNet50 для ImageNet, в распределенном обучении с несколькими узлами, и предположим, что каждая эпоха должна повторять каждую обучающую выборку по узлам через параллелизм данных.

  1. всегда ли гарантируется "итерация каждого образца один раз и только один раз"? или это о возможности
  2. если это гарантировано, требуется ли TF какой-либо координатор, например узел0 координировать по всем узлам перед каждым мини-пакетом? такие как образцы разделов, например узел 0 для загрузки образца 1-10К; узел2 для загрузки образца 10K-20K?
  3. Если это так, значит ли это для данного узла, он всегда загружает одни и те же (или фиксированные) наборы данных / файлы в эпоху 0 ... N? хотя фактический порядок выборки на шаге может быть перемешан.
...