Том root EBS для каждого узла используется для операционной системы и файлов приложений. Это объем 10 ГБ по умолчанию. Дополнительные тома, подключенные к основным узлам, используются для HDFS. Узлы задач могут иметь дополнительные тома, но узлы задач не имеют узлов имен HDFS и не будут хранить данные HDFS.
Хранилище экземпляров документация для EMR:
Хранилище экземпляров и / или хранилище томов EBS используется для данных HDFS, а также для буферов, кэшей, чистых данных и другого временного содержимого, которое некоторые приложения могут «пролить» на локальную файловую систему.
Spark будет хранить временные данные в HDFS, если настроено для этого. Вы можете настроить свойства , например spark.local.dir
, чтобы указать, куда Spark должен записывать данные.
Если вы специально не записываете данные в HDFS, вам не нужно выделять большие тома EBS для основных узлов , Я предлагаю запустить кластер с тем, что, по вашим оценкам, вам понадобится, а затем добавить дополнительные базовые узлы по мере увеличения ваших требований к HDFS.