Я могу дать несколько советов, но каждый проект отличается от других, и я использую то, что вам больше подходит.
Это исследование данных с одним таймером или что-то, что вам нужно делать по частому расписанию? Для того, чтобы делать это часто, искра может быть правильным инструментом. Spark хорош в преобразовании / настройке / очистке / предварительной обработке ваших данных во что-то более пригодное для тензорного потока (обычно в разреженный формат). Здесь важно, чтобы ваш gpus был занят, и для этого вам нужно как можно больше предварительно обработать, прежде чем использовать tf. S3 - хорошее хранилище, если у вас нет маленьких файлов.
Для того, чтобы тензорный поток был счастлив, большую часть времени вам нужно уплотнять свои векторы функций. Таким образом, вы берете мини-пакет записей и преобразуете векторы разреженных объектов в плотные векторы. Только тогда вы можете отправить его на тф. Это связано с тем, что gpus плохо работают с разреженными данными, а некоторые операции, например свертки, даже не поддерживают разреженные входные данные. (все, что может измениться в любое время, так как это активная область исследований)