В моей компании у нас непрерывный процесс обучения. Каждые 5-10 минут мы создаем новую модель в HDFS. Модель представляет собой папку из нескольких файлов:
- модель ~ 1G (двоичный файл)
- метаданные модели 1K (текстовый файл)
- характеристики модели 1K (файл CSV) ...
С другой стороны, у нас есть сотни экземпляров обслуживания моделей, которые должны загружать модель в локальную файловую систему раз в 5-10 минут и обслуживать ее. В настоящее время мы используем WebFS из нашего сервиса (java клиент FileSystem), но он, вероятно, создает нагрузку на наш кластер Had oop, поскольку перенаправляет запросы на конкретные узлы данных.
Мы считаем, что используя сервис HTTPFs. Есть ли у него возможность кеширования? Таким образом, первый запрос получит папку в служебную память, а следующие запросы будут использовать уже загруженные результаты?
Какие другие технологии / решения могут быть использованы для такого варианта использования?