Меня смущают некоторые похожие конфигурации искры ...
Я изучил основные ссылочные ссылки: https://spark.apache.org/docs/latest/configuration.html и https://spark.apache.org/docs/latest/running-on-yarn.html.
Но меня все еще смущают эти конфигурации ...
Может ли кто-нибудь помочь мне разобраться в основных отличиях?
Большое спасибо !!
1. spark.yarn.jars
против spark.jars
В чем разница между spark.yarn.jars и spark.jars?
Какая конфигурация совпадает с --jars
?
spark.yarn.jars: список библиотек, содержащих код Spark для распространения в контейнеры YARN. По умолчанию Spark on YARN будет использовать банки Spark, установленные локально, но файлы Spark также могут находиться в доступном для чтения месте в HDFS. Это позволяет YARN кэшировать его на узлах, так что его не нужно распределять каждый раз при запуске приложения. Чтобы указать, например, на jar-файлы в HDFS, установите для этой конфигурации значение hdfs: /// some / path. Разрешены глобусы.
spark.jars: список jar-файлов, разделенных запятыми, для включения в пути к классам драйвера и исполнителя. Разрешены глобусы.
2. spark.yarn.dist.archives
vs. spark.yarn.archive
В чем разница между spark.yarn.dist.archives и spark.yarn.archive?
Какая конфигурация совпадает с --archives
?
spark.yarn.dist.archives: разделенный запятыми список архивов, которые необходимо извлечь в рабочий каталог каждого исполнителя.
spark.yarn.archive: архив, содержащий необходимые jar-файлы Spark для распространения в кеш YARN. Если установлено, эта конфигурация заменяет spark.yarn.jars, и архив используется во всех контейнерах приложения. Архив должен содержать файлы jar в своей директории root. Как и в предыдущем варианте, архив также может быть размещен на HDFS для ускорения распространения файлов.
3. spark.yarn.dist.files
против spark.files
В чем разница между spark.yarn.dist.files и spark.files?
Какая конфигурация совпадает с --files
?
spark.yarn.dist.files: разделенный запятыми список файлов, которые будут помещены в рабочий каталог каждого исполнителя.
spark.files: разделенный запятыми список файлов, которые будут помещены в рабочий каталог каждого исполнителя. Разрешены глобусы.