Предположим, что CNN ResNet50 для ImageNet, в распределенном обучении с несколькими узлами, и предположим, что каждая эпоха должна повторять каждую обучающую выборку по узлам через параллелизм данных.
- всегда ли гарантируется "итерация каждого образца один раз и только один раз"? или это о возможности
- если это гарантировано, требуется ли TF какой-либо координатор, например узел0 координировать по всем узлам перед каждым мини-пакетом? такие как образцы разделов, например узел 0 для загрузки образца 1-10К; узел2 для загрузки образца 10K-20K?
- Если это так, значит ли это для данного узла, он всегда загружает одни и те же (или фиксированные) наборы данных / файлы в эпоху 0 ... N? хотя фактический порядок выборки на шаге может быть перемешан.