У меня есть набор данных с одним миллионом записей. Мне нужно использовать модель ML для запуска прогнозов на этих 1 млн. Записей и создания нового набора данных прогнозирования. Мое текущее решение / подход состоит в том, чтобы докеризировать логику предсказания c в одном контейнере. Но, учитывая масштаб входных записей, мое решение для одного контейнера не масштабируется.
Мой текущий мыслительный процесс выглядит следующим образом: В зависимости от размера входного набора данных я хочу динамически создавать несколько docker контейнеров, чтобы что каждый контейнер может предсказать некоторую часть набора данных. Наконец, я хочу объединить прогнозы из всех контейнеров в один окончательный файл.
Подход к реализации, о котором я думаю, заключается в следующем:
(1) Я хочу создать мастер-контейнер у которого должна быть логика c, чтобы разделить набор данных на несколько меньших файлов, а затем (2) в зависимости от количества меньших файлов, я хочу динамически создать такое количество контейнеров и смонтировать каждый контейнер с меньшим файлом [Это файл меньшего размера содержит часть большего набора данных]. (3) Наконец, я хочу объединить результаты этих нескольких контейнеров в один окончательный файл. Я также хочу сохранить порядок выходных записей.
Как бы я достиг вышеуказанной функциональности? Может ли один docker контейнер создать другой docker контейнер? Как один docker контейнер отслеживает несколько созданных им контейнеров? Как объединить выходные данные нескольких контейнеров в один окончательный файл в главном контейнере?