Распределенная файловая система Kubernetes - PullRequest
0 голосов
/ 14 января 2019

Что ж, моя компания рассматривает возможность перехода из Hadoop в Kubernetes. Мы можем найти решения в Kubernetes для таких инструментов, как cassandra, sparks и т. Д. Поэтому последняя проблема для нас - это как хранить огромное количество файлов в Kubernetes, скажем, 1 PB. К вашему сведению, мы НЕ хотим использовать сервисы онлайн-хранения, такие как S3.

Насколько я знаю, HDFS просто используется в Kubernetes, и есть несколько заменяющих продуктов, таких как Torus и Quobyte. Итак, мой вопрос, есть ли какие-либо рекомендации для файловой системы на Kubernetes? Или какое-нибудь лучшее решение?

Большое спасибо.

1 Ответ

0 голосов
/ 14 января 2019

Вы можете использовать Совместимую с Hadoop Файловую систему, такую ​​как Ceph или Minio. Оба из них предлагают S3-совместимые REST API для чтения и записи. В Kubernetes Ceph может быть развернут с использованием проекта Rook .

Но в целом для работы HDFS в Кубернетесе потребуются службы с сохранением состояния, такие как NameNode и DataNodes с надлежащими правилами соответствия и сетевыми правилами. Проект Hadoop Ozone - это осознание того, что хранилище объектов более распространено для рабочих нагрузок микросервиса, чем блочное хранилище HDFS, поскольку разумная попытка анализа PB данных с использованием распределенных микросервисов была неосуществима. (Я только размышляю)

Альтернативой является использование поддержки Docker в Hadoop & YARN 3.x

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...