Если я правильно понимаю, вы пытаетесь найти способ обучить ANN на кластере машин? Как вы заявили, разделение сети не является правильным подходом, и, насколько я знаю, это представляется невозможным для большинства моделей. Возможным подходом может быть разделение обучающих наборов и запуск локальных копий вашей сети, а затем объединение результатов. Интуитивно понятный способ сделать это и получить некоторую валидацию - это перекрестная валидация. Как вы заявили, знание того, когда сеть прошла нужное количество тренировок, является проблемой, но эта изменчивость является проблемой, присущей нейронным сетям в целом, а не при распараллеливании работы.
Как вы также заявили, обновления, которые происходят во время каждой итерации обучения, зависят от текущего состояния весов, но без смешения обучающих наборов / проверки, вы, вероятно, переобучаетесь. Вот почему резюме приятно, потому что все ваши тренировочные наборы получат возможность сыграть свою роль в обучении и проверке нескольких образцов.