EMR Spark job - использование хранилища HDFS и EBS - PullRequest
0 голосов
/ 25 февраля 2020

Распределяет ли Spark на EMR входные данные из Amazon S3 в базовые HDFS?

Как используются тома EBS, которые также подключены к узлам?

Ответы [ 2 ]

0 голосов
/ 27 февраля 2020

Погода вы указываете HDFS или нет, он всегда крутится EMR. Я не смог найти никакой документации, почему EMR вращает HDFS; Но по моему опыту EMR сначала записывает в HDFS как временное хранилище, а затем копирует эти данные в S3. Некоторая часть тома root используется для размещения этой HDFS - даже если вы не установили флажок HDFS при вращении EMR

0 голосов
/ 27 февраля 2020

Том root EBS для каждого узла используется для операционной системы и файлов приложений. Это объем 10 ГБ по умолчанию. Дополнительные тома, подключенные к основным узлам, используются для HDFS. Узлы задач могут иметь дополнительные тома, но узлы задач не имеют узлов имен HDFS и не будут хранить данные HDFS.

Хранилище экземпляров документация для EMR:

Хранилище экземпляров и / или хранилище томов EBS используется для данных HDFS, а также для буферов, кэшей, чистых данных и другого временного содержимого, которое некоторые приложения могут «пролить» на локальную файловую систему.

Spark будет хранить временные данные в HDFS, если настроено для этого. Вы можете настроить свойства , например spark.local.dir, чтобы указать, куда Spark должен записывать данные.

Если вы специально не записываете данные в HDFS, вам не нужно выделять большие тома EBS для основных узлов , Я предлагаю запустить кластер с тем, что, по вашим оценкам, вам понадобится, а затем добавить дополнительные базовые узлы по мере увеличения ваших требований к HDFS.

...