Искра Автономный против YARN - PullRequest
0 голосов
/ 06 ноября 2019

Какие функции YARN делают его лучше, чем автономный режим Spark для мультитенантного кластера, на котором работают только приложения Spark? Может быть, кроме аутентификации.

В Google есть много ответов, довольнодля меня многие из них звучат неправильно, поэтому я не уверен, где истина.

Например:

  1. DZone, Deep Dive Into Spark ClusterУправление

    Автономный режим хорош для небольших кластеров Spark, но не подходит для более крупных кластеров (накладные расходы на запуск демонов Spark - master + slave - в узлах кластера)

    Но другим менеджерам кластеров также требуется запуск агентов на узлах кластера. Т.е. подчиненные YARN называются менеджерами узлов. Они могут потреблять даже больше памяти, чем рабы Spark (по умолчанию Spark составляет 1 ГБ).

  2. Этот ответ

Автономный режим Spark требует, чтобы каждое приложение запускало исполнителя на каждом узле кластера;в то время как в YARN вы выбираете количество исполнителей для использования

против Spark Standalone # executor / cores control , которое показывает, как вы можете указать количество потребляемых ресурсов в автономном режиме.

Документация Spark в автономном режиме

В настоящее время режим автономного кластера поддерживает простой планировщик FIFO для всех приложений.

ПротивФактически автономный режим может использовать динамическое распределение, и вы можете указать spark.dynamicAllocation.minExecutors & spark.dynamicAllocation.maxExecutors. Также я не нашел заметку о том, что Standalone не поддерживает FairScheduler.

Этот ответ

YARN напрямую обрабатывает расположение стойки и машины

Как YARN может знать что-либо о данныхместоположение в моей работе? Предположим, я храню местоположения файлов в AWS Glue (используется EMR в качестве мета-хранилища Hive). В работе Spark я спрашиваю some-db.some-table. Как YARN может знать, какой исполнитель лучше подходит для назначения работы?

UPD: найдено еще одно упоминание о YARN и местонахождении данных https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-data-locality.html. В случае S3, например, все равно не имеет значения.

...