Является ли EFS заменой HDFS для распределенного хранилища? - PullRequest
0 голосов
/ 16 марта 2020

Наше бизнес-требование состоит в том, чтобы читать из миллионов файлов и обрабатывать их параллельно (позже индексировать в ES). Это однократная операция, и после ее обработки мы не будем снова читать эти миллионы файлов. Теперь мы хотим распределить хранилище файлов и в то же время обеспечить хранение данных. Я провел небольшое исследование и составил список

  1. EBS: данные сохраняются даже после закрытия экземпляра EC2. Он доступен из одного экземпляра EC2 из нашего AWS региона. Будет полезно, если мы разделим данные самостоятельно и предоставим их различным экземплярам EC2. Он предлагает избыточность и безопасность шифрования. Легко масштабируется. Мы можем использовать его, если разделим порции вручную и предоставим их на разные имеющиеся у нас серверы.
  2. EFS: позволяет монтировать FS в нескольких регионах и экземплярах (доступных из нескольких экземпляров EC2). Поскольку EFS является управляемой службой, нам не нужно беспокоиться о поддержке и развертывании FS
  3. S3: не ограничен доступом из EC2, но S3 не является файловой системой
  4. HDFS: чрезвычайно хорош в масштабе, но эффективен только с двойной или тройной репликацией. Уменьшение HDFS является болезненным и глючным. «В нем также отсутствует шифрование на уровне хранилища и сети. Он также связан с различными противоречиями, поскольку киберпреступники могут легко использовать фреймворки, построенные на Java». Не уверен, насколько это важно, учитывая, что наши серверы достаточно безопасны.
  5. Проблема с маленькими файлами в oop, объяснена в https://data-flair.training/forums/topic/what-is-small-file-problem-in-hadoop/ Учитывая большинство файлов, которые мы получаем меньше 1 МБ; это может вызвать проблемы с памятью, если мы go превышаем определенное число. Так что это не даст нам производительность, которую мы считаем нужной.

Моя путаница связана с HDFS: я изучил множество ресурсов, в которых говорится о «S3» и «HDFS», и, к удивлению, их нет. чистые ресурсы по "EFS" против "HDFS", что смущает меня в понимании, если они действительно заменяют друг друга или дополняют друг друга.

  1. Например, один вопрос, который я нашел, был: «Кто-нибудь пробовал использовать AWS EFS-монтирования в качестве скретч-пряжи и HDFS-каталогов?» -> что означает монтировать EFS как каталог HDFS?

  2. «Использование томов EBS для HDFS предотвращает локальность данных» - Что значит использовать «том EBS» для HDFS?

  3. Что означает запуск "HDFS в облаке"?

Ссылки

1 Ответ

0 голосов
/ 09 мая 2020

есть возможности для любого вида хранилища, но, поскольку ваша ситуация является одноразовой, вам необходим выбор в отношении 1 - Оптимизирована стоимость 2 - Хорошо выполнена 3 - Безопасна

Я не могу ответить на все вопросы ваши вопросы, но касательно вашего варианта использования. Я считаю, что вы используете данные из экземпляра EC2, и если бы вы упомянули о производстве и обработке этих файлов, а также о размере каждого файла, возможно, я мог бы помочь вам лучше.

Соображения :

1 - EBS имеет выделенную или ограниченную пропускную способность и вынуждает вас предоставлять и удалять данные после обработки. К вашему сведению: вы можете установить политику хранения тома EBS, который будет удален завершением EC2, но не при завершении работы. Если вам нужен действительно самый быстрый способ и вам не нужны затраты, EBS - это хорошая идея с хорошим обеспечением, поскольку вы оплачиваете их срок службы и хранилище.

2 - EFS - это хранилище NAS, а также данные должны быть удаляется после обработки.

3 - HDFS - это распределенная файловая система, которая является лучшим выбором для петабайтных и распределенных файловых систем, но не используется как одноразовое решение, вам требуется установка и настройка.

4- Я лично предлагаю вам S3, поскольку у вас нет ограниченной пропускной способности, а с помощью конечной точки VP C вы можете достичь скорости до 25 Гбит / с, или же вы можете использовать политики жизненного цикла S3 для автоматического удаления ваших данных на основе тегов или через 1 - 356 дней или при необходимости заархивируйте их.

...