Какое самое эффективное решение для сотен запросов на загрузку в минуту для папки HDFS - PullRequest
0 голосов
/ 23 февраля 2020

В моей компании у нас непрерывный процесс обучения. Каждые 5-10 минут мы создаем новую модель в HDFS. Модель представляет собой папку из нескольких файлов:

  1. модель ~ 1G (двоичный файл)
  2. метаданные модели 1K (текстовый файл)
  3. характеристики модели 1K (файл CSV) ...

С другой стороны, у нас есть сотни экземпляров обслуживания моделей, которые должны загружать модель в локальную файловую систему раз в 5-10 минут и обслуживать ее. В настоящее время мы используем WebFS из нашего сервиса (java клиент FileSystem), но он, вероятно, создает нагрузку на наш кластер Had oop, поскольку перенаправляет запросы на конкретные узлы данных.

Мы считаем, что используя сервис HTTPFs. Есть ли у него возможность кеширования? Таким образом, первый запрос получит папку в служебную память, а следующие запросы будут использовать уже загруженные результаты?

Какие другие технологии / решения могут быть использованы для такого варианта использования?

1 Ответ

0 голосов
/ 24 февраля 2020

Мы нашли хорошее решение.

Его можно использовать для Had oop, чтобы уменьшить нагрузку на чтение, или для Google / S3, чтобы уменьшить стоимость.

Мы просто установили -подключите пару серверов Ngnix и настройте их как прокси с файловым кешем 2 минуты.

Таким образом, только машины Ngnix будут загружать данные из кластера Had oop.

И все обслуживающие машины (их могут быть сотни) будут извлекать данные с сервера Nginx, где они уже будут кэшироваться

...