Как настроить AWS EMR для использования s3 в качестве хранилища hdfs - PullRequest
0 голосов
/ 10 мая 2018

Я пытаюсь создать кластер EMR с указанными ниже конфигурациями, но на этапе начальной загрузки происходит сбой.Я использую EMR-релиз: EMR 5.13.0

[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.defaultFS": "s3://my-s3-bucket",
      "fs.s3a.imp": "org.apache.hadoop.fs.s3.S3FileSystem"
    }
  }
]

Если я удаляю эту конфигурацию, кластер успешно инициализируется.Любая идея, как можно сделать s3-поддержку hdfs?

1 Ответ

0 голосов
/ 10 мая 2018

Короче говоря, то, что вы пытаетесь достичь, невозможно.

Причина: HDFS - это реализация Hadoop FileSystem API - которая моделируется на основе поведения файловой системы POSIX.

Хотя файловая система EMR (EMRFS) - это хранилище объектов в ядре, которое имитирует HDFS, которую все кластеры Amazon EMR используют для чтения и записи обычных файлов из Amazon EMR непосредственно в Amazon S3. Он по-прежнему нарушает некоторые требования API Hadoop FileSystem, которые можно считать заменой HDFS. См. Раздел «Хранилища объектов и файловые системы» в приведенной выше ссылке.

С учетом вышесказанного вы все равно можете использовать Amazon S3 в качестве опции хранения в EMR, не конфигурируя ничего, просто используя схему URI s3: // .

Надеюсь, это ответит на ваш вопрос.

...