Ответ от сопровождающего Alluxio.
Прежде всего, Alluxio не замена HDFS. Вместо этого это новый уровень абстракции поверх других распределенных / облачных систем хранения, включая HDFS, S3, Azure Object Store и другие возможные варианты. В вашем случае, если ваши данные уже находятся в HDFS, вы, возможно, по-прежнему сохраните HDFS в качестве постоянного уровня данных для Alluxio.
Типичные сценарии, на которых пользователи изображают Alluxio, и видят значительные преимущества:
- Ваши физические данные не находятся в ваших вычислениях. Например, ваш движок bigdata читает данные из S3 или другого хранилища объектов. В этом случае, развертывая Alluxio с вычислительными узлами, можно заставить Alluxio работать в качестве кэша на уровне файловой системы, чтобы избежать повторной выборки данных по сети. Смотри http://www.alluxio.org/overview/remote-data-acceleration
- Вы управляете несколькими хранилищами и хотите предоставить один уровень доступа к данным, чтобы упростить управление. Например, можно «смонтировать» несколько блоков S3 / bucket в одном развертывании Alluxio, чтобы они выглядели как разные каталоги в одном и том же пространстве имен. См http://www.alluxio.org/overview/storage-unification
Относительно вашего исходного вопроса о производительности. Ответ, это зависит. Если ваша HDFS удалена от вычислений, вы ожидаете хорошего прироста производительности. Я также видел случаи, когда HDFS является узким местом, Alluxio также может помочь снизить нагрузку и обеспечивает хороший SLA для определенных критически важных заданий.