Разница между аналогичными конфигурациями свечей - PullRequest
1 голос
/ 18 июня 2020

Меня смущают некоторые похожие конфигурации искры ...

Я изучил основные ссылочные ссылки: https://spark.apache.org/docs/latest/configuration.html и https://spark.apache.org/docs/latest/running-on-yarn.html.

Но меня все еще смущают эти конфигурации ...

Может ли кто-нибудь помочь мне разобраться в основных отличиях?

Большое спасибо !!

1. spark.yarn.jars против spark.jars

В чем разница между spark.yarn.jars и spark.jars?

Какая конфигурация совпадает с --jars?

  • spark.yarn.jars: список библиотек, содержащих код Spark для распространения в контейнеры YARN. По умолчанию Spark on YARN будет использовать банки Spark, установленные локально, но файлы Spark также могут находиться в доступном для чтения месте в HDFS. Это позволяет YARN кэшировать его на узлах, так что его не нужно распределять каждый раз при запуске приложения. Чтобы указать, например, на jar-файлы в HDFS, установите для этой конфигурации значение hdfs: /// some / path. Разрешены глобусы.

  • spark.jars: список jar-файлов, разделенных запятыми, для включения в пути к классам драйвера и исполнителя. Разрешены глобусы.

2. spark.yarn.dist.archives vs. spark.yarn.archive

В чем разница между spark.yarn.dist.archives и spark.yarn.archive?

Какая конфигурация совпадает с --archives?

  • spark.yarn.dist.archives: разделенный запятыми список архивов, которые необходимо извлечь в рабочий каталог каждого исполнителя.

  • spark.yarn.archive: архив, содержащий необходимые jar-файлы Spark для распространения в кеш YARN. Если установлено, эта конфигурация заменяет spark.yarn.jars, и архив используется во всех контейнерах приложения. Архив должен содержать файлы jar в своей директории root. Как и в предыдущем варианте, архив также может быть размещен на HDFS для ускорения распространения файлов.

3. spark.yarn.dist.files против spark.files

В чем разница между spark.yarn.dist.files и spark.files?

Какая конфигурация совпадает с --files ?

  • spark.yarn.dist.files: разделенный запятыми список файлов, которые будут помещены в рабочий каталог каждого исполнителя.

  • spark.files: разделенный запятыми список файлов, которые будут помещены в рабочий каталог каждого исполнителя. Разрешены глобусы.

...