Alluxio с / без HDFS - PullRequest
       57

Alluxio с / без HDFS

0 голосов
/ 30 августа 2018

У меня есть кластер с HDFS в качестве распределенной файловой системы под хранилищем, но я только что прочитал о alluxio , который быстр и гибок. Итак, мой вопрос: должен ли я использовать Alluxio с HDFS или Alluxio является альтернативой для HDFS? (Я вижу на их сайте, что общим хранилищем для файловой системы под хранилищем может быть сетевая файловая система (NFS). Итак, я думаю, что HDFS не требуется. Исправьте меня, если я ошибаюсь).

В каком режиме производительность лучше: HDFS с Alluxio или Alluxio stanalone (я имею в виду термин «автономный», который должен использоваться отдельно в кластере, а не локально).

1 Ответ

0 голосов
/ 04 сентября 2018

Ответ от сопровождающего Alluxio.

Прежде всего, Alluxio не замена HDFS. Вместо этого это новый уровень абстракции поверх других распределенных / облачных систем хранения, включая HDFS, S3, Azure Object Store и другие возможные варианты. В вашем случае, если ваши данные уже находятся в HDFS, вы, возможно, по-прежнему сохраните HDFS в качестве постоянного уровня данных для Alluxio.

Типичные сценарии, на которых пользователи изображают Alluxio, и видят значительные преимущества:

  • Ваши физические данные не находятся в ваших вычислениях. Например, ваш движок bigdata читает данные из S3 или другого хранилища объектов. В этом случае, развертывая Alluxio с вычислительными узлами, можно заставить Alluxio работать в качестве кэша на уровне файловой системы, чтобы избежать повторной выборки данных по сети. Смотри http://www.alluxio.org/overview/remote-data-acceleration
  • Вы управляете несколькими хранилищами и хотите предоставить один уровень доступа к данным, чтобы упростить управление. Например, можно «смонтировать» несколько блоков S3 / bucket в одном развертывании Alluxio, чтобы они выглядели как разные каталоги в одном и том же пространстве имен. См http://www.alluxio.org/overview/storage-unification

Относительно вашего исходного вопроса о производительности. Ответ, это зависит. Если ваша HDFS удалена от вычислений, вы ожидаете хорошего прироста производительности. Я также видел случаи, когда HDFS является узким местом, Alluxio также может помочь снизить нагрузку и обеспечивает хороший SLA для определенных критически важных заданий.

...